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Vorwörtchen 


„Diese Arbeit ist ursprünglich im Rahmen eines Seminars der Rheinischen 
Friedrich-Wilhelms-Universität Bonn entstanden, wurde und wird jedoch 
(nachdem vorgetragen und online verfügbar gemacht unter 
www.dkriesel.com am 27.05.2005) immer mehr erweitert - erstens, um mit 
der Zeit einen möglichst guten Überblick über das Thema der Neuronalen 
Netze liefern zu können und zweitens schlicht und einfach, weil ich daran 
immer mehr und besser lAT^X lernen möchte. Wer weiss, vielleicht wird aus 


dieser 


Aus der obenstehenden Zusammenfassung 
ist bis jetzt zwar kein Vorwort, aber im¬ 
merhin ein Vorwörtchen geworden, nach¬ 
dem sich die Erweiterung der Arbeit (da¬ 
mals auf 40 Seiten) bei mir unverhofft zum 
Downloadschlager entwickelt hat. 


Anspruch und Intention dieses 
Manuskripts 

Der ganze Text ist großzügiger geschrie¬ 
ben und ausführlicher bebildert als früher. 
Die Illustrationen sind nun „nach meinem 
Gusto“ selbst erstellt, zum Großteil direkt 
in LTj^X unter Verwendung des Pakets 
XYpic. Sie spiegeln das wieder, was ich 
mir beim Erarbeiten des Stoffs gewünscht 
hätte, sollen also mit dem Text zusammen 
möglichst eingängig und schnell verständ¬ 
lich sein, um möglichst vielen einen Ein- 


Zusammenfassung ja sogar einmal ein Vorwort!" 
Zusammenfassung dieser Arbeit, Ende 2005 

stieg in das Gebiet der Neuronalen Netze 
zu ermöglichen. 

Trotzdem kann der mathematisch und for¬ 
mal versierte Leser die Definitionen wei¬ 
testgehend ohne Fließtext lesen, der nur 
an dem Gebiet an sich interessierte Le¬ 
ser umgekehrt; alles wird also sowohl um¬ 
gangssprachlich wie auch formal erklärt. 
Ich bitte ausdrücklich um Hinweise, falls 
ich diese Doppelmoral einmal nicht ausrei¬ 
chend bewerkstelligt haben sollte. 


Abschnitte dieser Arbeit sind 
weitestgehend eigenständig 

Das Dokument selbst gliedert sich in meh¬ 
rere Teile, die sich wiederum in Kapitel 
teilen. Trotz Querverweisen untereinander 
kann man die Kapitel mit nur geringem 
Vorwissen auch für sich selbst lesen. Hier¬ 
bei gibt es größere und kleinere Kapitel: 
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Während die größeren einen etwas fundier¬ 
teren Einblick in ein Paradigma Neurona¬ 
ler Netze geben sollen (z.B. beim Stan¬ 
dardbeispiel Neuronaler Netze, dem Per- 
ceptron und seiner Lernverfahren), sind 
die kleineren für einen kurzen Überblick 
gedacht - dies wird in der jeweiligen Kapi¬ 
teleinleitung auch beschrieben. In einigen 
Exkursen möchte ich noch gerne im Zu¬ 
sammenhang interessantes, aber nicht di¬ 
rekt dem Stoff zugehöriges Wissen vermit¬ 
teln. 

Auf der Suche nach kostenlosen deutschen 
Quellen, die inhaltlich (was die Paradig¬ 
men Neuronaler Netze angeht) vielfältig, 
aber trotzdem durchgehend einheitlichen 
Stils sind, bin ich (zumindest was deutsch¬ 
sprachiges Material angeht) leider nicht 
wirklich fündig geworden. Das Ziel dieser 
Arbeit (auch wenn sie es vielleicht nicht 
auf Anhieb erfüllen kann) ist, diese Lücke 
nach und nach zu schließen und das Fach¬ 
gebiet auf leicht verständliche Weise zu¬ 
gänglich zu machen. 

Für diejenigen, die direkt 
während des Lesens 
programmieren möchten, gibt 
es SNIPE 

SNIPE 1 ist eine ausführlich dokumen¬ 
tierte JAVA-Bibliothek, welche ein schnel¬ 
les, feature-reiches und einfach benutzba- 

1 Scalable and Generalized Neural Information Pro¬ 
cessing Engine, Download unter http://www. 
dkriesel.com/tech/snipe Online-JavaDoc un¬ 
ter http://snipe.dkriesel.com 


res Framework für Neuronale Netze imple¬ 
mentiert. Für nichtkommerzielle Einsatz¬ 
gebiete ist es kostenlos verfügbar. Es war 
von mir ursprünglich für den Einsatz in 
Hochleistungssimulationen konzipiert, in 
denen sehr viele, auch große Netze gleich¬ 
zeitig trainiert und ausgeführt werden. Vor 
kurzem habe ich mich nun entschieden, 
Snipe als professionelle Referenzimplemen¬ 
tierung zu dieser Arbeit online zu stel¬ 
len, die sehr viele der behandelten Aspek¬ 
te abdeckt, aber angesichts des ursprüng¬ 
lichen Design-Ziels effizienter arbeitet als 
die meisten anderen Implementierungen. 
Wer also direkt vieles vom Gelernten aus¬ 
probieren möchte oder aus anderen Grün¬ 
den nach dem Lernen eine schnelle und 
stabile Neuronale-Netze-Implementierung 
braucht, ist mit Snipe sicher gut bera¬ 
ten. 

Die von Snipe abgedeckten Aspekte sind 
allerdings nicht komplett deckungsgleich 
mit dem Manuskript. Manche im Manu¬ 
skript vorgestellten Arten Neuronaler Net¬ 
ze werden von Snipe nicht unterstützt, 
während Snipe in anderen Bereichen deut¬ 
lich mehr Fähigkeiten hat, als im Manu¬ 
skript in Form von Praxistipps beschrie¬ 
ben werden kann (ich habe aber die 
Erfahrung gemacht, dass die allermeis¬ 
ten Implementierungsinteressen der Leser 
gut abgedeckt werden). Auf der Snipe- 
Downloadseite gibt es in der Rubrik „Los¬ 
legen mit Snipe“ eine einfache, schrittwei¬ 
se Einführung in Snipe und seine Doku¬ 
mentation, sowie einige Beispiele. 

SIMIPE: Dieses Manuskript integriert Snipe 
sehr stark. Über weite Teile des Manuskrip¬ 
tes hinweg finden sich abgesetzte, unter- 
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legte Textstellen wie diese, aus denen her- 
vorgeht, wie der gerade beschriebene Kon¬ 
text in Snipe realisiert werden kann. Wer 
Snipe nicht nutzen möchte, muss al¬ 
so nur diese abgesetzten Textstellen 
überspringen! Die Snipe-Textstellen set¬ 
zen voraus, dass man sich vorher die „Los¬ 
legen mit Snipe“-Anleitung auf der Down¬ 
loadseite zu Gemüte geführt hat. Oftmals 
werden Klassennamen verwendet; da Sni¬ 
pe nicht sehr viele Java-Pakete hat, habe 
ich die Paketnamen der Übersichtlichkeit 
halber nicht den Klassennamen vorange¬ 
stellt. 


Es ist einfach, diese Arbeit zu 
drucken 

Diese Ausarbeitung ist durchgehend farbig 
gehalten, kann jedoch auch so, wie sie ist 
monochrom gedruckt werden: Die Farben 
sind in Abbildungen, Tabellen und Text so 
gewählt, dass sie neben schönem Farbde- 
sign auch einen hervorragenden Schwarz- 
Weiss-Kontrast ergeben. 


Es sind viele Hilfsmittel im 
Text integriert 

In das Dokument sind verschiedene Hilfs¬ 
mittel direkt integriert, die das Lesen we¬ 
sentlich flexibler machen sollen: Wer (wie 
ich) lieber auf Papier liest als am Bild¬ 
schirm, soll sich trotzdem einiger Features 
erfreuen. 


Verschiedene Kapiteltypen sind im 
Inhalt gekennzeichnet 

Direkt im Inhaltsverzeichnis sind die Ka¬ 
piteltypen gekennzeichnet. Kapitel, die 
als „wichtige Grundlagen“ gekennzeichnet 
sind, sollte man definitiv zu Anfang lesen, 
denn eigentlich alle nachfolgenden Kapitel 
basieren in irgendeiner Form darauf. Ande¬ 
re Kapitel basieren zusätzlich auf bestimm¬ 
ten anderen (vorherigen) Kapiteln, auch 
hier steht eine entsprechende Bemerkung 
im Inhaltsverzeichnis neben dem Kapitel¬ 
titel. 

Sprechende Überschriften im Text, 
kürzere im Inhaltsverzeichnis 

Das ganze Scriptum ist nun mit sprechen¬ 
den Überschriften durchzogen. Sprechende 
Überschriften sind nicht nur einfach ein 
Titel wie z.B. „Bestärkendes Lernen“, son¬ 
dern definieren den Kernpunkt des zugehö¬ 
rigen Abschnitts: in diesem Fall „Bestär¬ 
kendes Lernen gibt dem Netz Feedback, 
ob es sich gut oder schlecht verhält“. Die 
letztere, lange Version dient hierbei als 
Überschrift, die im Text verwendet wird, 
die kürzere steht im Inhaltsverzeichnis, so 
dass dieses griffig bleibt. 

Randbemerkungen sind eine 
Navigationshilfe 

Über das ganze Dokument hinweg exis¬ 
tieren umgangssprachliche Randhinweise 
(siehe nebenstehendes Beispiel), an de¬ 
nen entlang man (unter Mitbenutzung 
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der Überschriften) durch den Text „glei- Nutzungsbedingungen und 

ten“ und Textstellen einfach wiederfinden Lizenz 

kann. 


Neue mathematische Symbole kennzeich¬ 
ne ich zum einfachen Wiederfinden mit 
besonderen Randhinweisen (nebenstehend 
ein Beispiel für x). 


Es gibt verschiedene Arten der 
Indizierung 

Es existieren verschiedene Arten der In¬ 
dizierung: Zunächst kann man einen Be¬ 
griff, nachdem man ihn im Index gefun¬ 
den und die betreffende Seite aufgeschla¬ 
gen hat, einfach finden, indem man nach 
hervorgehobenem Text sucht indizier¬ 
te Begriffe sind grundsätzlich auf diese 
Weise hervorgehoben. 

Kapitelübergreifende mathematische Sym¬ 
bole (wie z.B. fl für ein Outputneuron, ich 
habe mich bemüht, bei allgegenwärtig wie¬ 
derkehrenden Elementen eine konsistente 
Nomenklatur beizubehalten) besitzen eine 
eigene Indexkategorie unter „Mathemati¬ 
sche Symbole“, so dass sie einfach dem 
entsprechenden Begriff zugeordnet werden 
können. 

Personennamen, welche in KAPITÄLCHEN 
geschrieben sind, werden in der Indexkate¬ 
gorie „Personen“ indiziert und nach Nach¬ 
namen geordnet. 


Von der Epsilon-Edition an ist das 
Manuskript unter Creative Commons 
Attribution-No Derivative Works 3.0 Un- 
ported License 2 lizensiert, bis auf einige 
wenige Kleinteile, die liberaleren Lizen¬ 
zen unterstehen (im Wesentlichen ein paar 
Bilder, die in den Wikimedia Commons 
sind). Hier ist eine Kurzzusammenfassung 
dessen, was diese Lizenz ungefähr wieder¬ 
gibt: 

1. Dieses Dokument darf frei weiterver¬ 
breitet werden (auch wenn es eine 
bessere Idee ist, einfach die URL 
meiner Homepage weiterzuverbreiten, 
denn hier gibt es schließlich immer die 
neueste Version). 

2. Dieses Dokument darf nicht modifi¬ 
ziert oder als Teil eines anderen ver¬ 
wendet werden, insbesondere nicht für 
kommerzielle Zwecke. 

3. Dieses Dokument muss in jeglicher sei¬ 
ner Verwendungen dem Autor zuge¬ 
schrieben werden. Die Urheberschaft 
des Autors darf nicht verschleiert wer¬ 
den. 

4. Die o.g. Zuschreibung des Dokumen¬ 
tes zum Autor impliziert nicht, dass 
der Autor die Art befürwortet, auf 
die ein beliebiger Leser das Dokument 
nutzt. 


2 http://creativecommons.org/licenses/ 
by-nd/3.0/ 
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Da ich kein Anwalt bin, ist die obige 
Stichpunktzusammenfassung nur informa¬ 
tiv gemeint. Wenn sie in irgendeiner Form 
in Konflikt zur o.g. Creative Commons- 
Lizenz steht, so hat letztere in jedem 
Fall Vorrang. Natürlich berührt die Lizenz 
ebenfalls nicht den Source Code des Manu¬ 
skripts, der nicht veröffentlicht wird. 

Wie dieser Text zitiert wird 

Da dieser Text keinen offiziellen Verlag 
hat, muss man mit Referenzen sorgfäl¬ 
tig sein: Hierzu gibt es Informationen in 
Deutsch und Englisch auf meiner Homepa¬ 
ge bzw. der zum Text gehörenden Unter¬ 
seite 3 . 
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3 http://www.dkriesel.com/science/neural_ 
networks 


Lesern Dietmar Berger, Igor Buchmüller, 
Marie Christ, Julia Damaschek, Jochen 
Döll, Maximilian Ernestus, Hardy Falk, 
Anne Feldnreier, Sascha Fink, Andreas 
Friedmann, Jan Gassen, Markus Gerhards, 
Sebastian Hirsch, Andreas Hochrath, Nico 
Höft, Thomas Ihme, Boris Jentsch, Tim 
Hussein, Thilo Keller, Mario Krenn, Mirko 
Kunze, Maikel Linke, Adam Maciak, Ben¬ 
jamin Meier, David Möller, Andreas Mül¬ 
ler, Rainer Penninger, Lena Reichel, Alex¬ 
ander Schier, Matthias Siegmund, Mathi¬ 
as Tirtasana, Oliver Tischler, Maximilian 
Voit, Igor Wall, Achim Weber, Frank Wein¬ 
reis, Gideon Maillette de Buij Wenniger, 
Philipp Woock und vielen anderen ausspre¬ 
chen. 

Herzlicher Dank geht an Sebastian Merz¬ 
bach, der die Epsilon2-Version des Skrip¬ 
tums auf gewissenhafteste und gründlichs¬ 
te Art und Weise auf Inkonsistenzen und 
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Von der Biologie zur Formalisierung 
— Motivation, Philosophie, 
Geschichte und Realisierung 
Neuronaler Modelle 



Kapitel 1 

Einleitung, Motivation und Geschichte 


Wie kann man dem Computer etwas beibringen? Entweder, indem man ein 
starres Programm schreibt - oder, indem man ihm das Lernen ermöglicht. 
Lebende Wesen haben keinen Programmierer, der ihnen ein Programm für ihre 
Fähigkeiten schreibt, welches nur ausgeführt werden muss. Sie lernen - ohne 
Vorkenntnisse durch Eindrücke von außen - selber und kommen damit zu 
besseren Problemlösungen als jeder heutige Computer. Kann man solches 
Verhalten auch bei Maschinen wie Computern erreichen? Können wir solche 
Kognition von der Biologie adaptieren? Geschichte, Entwicklung, Niedergang 
und Wiederauferstehung eines großen Ansatzes, Probleme zu lösen. 


Computer 

nicht 

lernfähig 


1.1 Warum Neuronale Netze? 

Es gibt Kategorien von Problemen, wel¬ 
che sich nicht in einen Algorithmus fassen 
lassen - Probleme, die von einer großen 
Menge subtiler Faktoren abhängen, wie 
zum Beispiel die Bestimmung des Kauf¬ 
preises einer Immobilie, den wir mit unse¬ 
rem Gehirn (ungefähr) bestimmen können, 
ein Computer in Ermangelung eines Algo¬ 
rithmus aber nicht. Darum muss man sich 
die Frage stellen: Wie lernen wir denn, auf 
solche Fragestellungen einzugehen? 

Genau - wir lernen ; eine Fähigkeit, an der 
es Computern offensichtlich mangelt. Men¬ 
schen haben ein Gehirn mit der Fähigkeit 
zu lernen, Computer einige Recheneinhei¬ 
ten und Speicher. Diese ermöglichen, in 


kürzester Zeit komplizierteste numerische 
Berechnungen auszuführen, bieten uns je¬ 
doch keine Lernfähigkeit. Stellen wir Com¬ 
puter und Gehirn gegenüber 1 * , so bemer¬ 
ken wir, dass der Computer theoretisch 
leistungsfähiger sein müsste: Er besitzt 10 9 
Transistoren mit einer Schaltzeit von ICK 9 
Sekunden. Das Gehirn hat zwar 10 11 Neu¬ 
rone, jedoch schalten diese nur in etwa 
1CT 3 * * * * * Sekunden. 

Allerdings arbeitet der größte Teil des Ge¬ 
hirns durchgehend, während wiederum der 

1 Diese Gegenüberstellung ist natürlich aus vielen 

naheliegenden Gründen bei Biologen wie Informa¬ 

tikern umstritten, da Schaltzeit und Menge nichts 

über Qualität und Leistung der Recheneinheiten 

aussagt und Neurone und Transistoren auch nicht 

direkt vergleichbar sind. Dennoch erfüllt die Ge¬ 

genüberstellung den Zweck, den Vorteil der Paral¬ 

lelität anhand der Verarbeitungszeit aufzuzeigen. 
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Parallelität 


Einfache, 
aber viele 
Rechen¬ 
einheiten 



Gehirn 

Computer 

Anzahl Recheneinheiten 

« IO 11 

« IO 9 

Art Recheneinheiten 

Neurone 

Transistoren 

Art der Berechnung 

massiv parallel 

i.d.R. seriell 

Datenspeicherung 

assoziativ 

adr essbasiert 

Schaltzeit 

« 10 _3 s 

« 10 _9 s 

Theoretische Schaltvorgänge 

* 10l3 I 

* 10l8 I 

Tatsächliche Schaltvorgänge 

* 10l2 i 

« 10 loi 

s 


Tabelle 1.1: Der (hinkende) Vergleich zwischen Gehirn und Rechner auf einen Blick. Vorlage: 
Zel94 


größte Teil des Computers nur passiv Da¬ 
ten speichert. So arbeitet das Gehirn paral¬ 
lel und damit nahe an seiner theoretischen 
Maximalleistung, der Computer ist von 
dieser jedoch um Zehnerpotenzen entfernt 
(Tabelle 0>- Zudem ist ein Computer in 
sich statisch - das Gehirn als biologisches 
Neuronales Netz kann sich jedoch während 
seiner „Laufzeit“ umstrukturieren und so 
lernen, Fehler kompensieren und mehr. 

Innerhalb dieser Arbeit möchte ich skiz¬ 
zieren, wie man sich solche Eigenschaften 
des Gehirns auch am Computer zunutze 
macht. 

Das Studium der Künstlichen Neuronalen 
Netze ist also motiviert durch die Ähn¬ 
lichkeit zu erfolgreich arbeitenden biologi¬ 
schen Systemen, welche im Vergleich zum 
Gesamtsystem aus sehr einfachen, aber da¬ 
für vielen und massiv parallel arbeitenden 
Nervenzellen bestehen und (das ist wohl 
einer der bedeutendsten Aspekte) Lern¬ 
fähigkeit besitzen. Ein Neuronales Netz 
muss nicht explizit für seine Aufgaben 
programmiert werden, es kann beispiels¬ 


weise aus Trainingsbeispielen lernen oder 
auch durch Bestärkung, sozusagen durch 
Zuckerbrot und Peitsche (Reinforcement 
Learning ). 

Ein aus dem Lernvorgang resultierender 
Aspekt ist die Generalisierungs- bzw. 
Assoziationsfähigkeit Neuronaler Net¬ 
ze: Nach erfolgreichem Training kann ein 
Neuronales Netz ähnliche Probleme dersel¬ 
ben Klasse, die nicht explizit trainiert wur¬ 
den, plausiblen Lösungen zuführen. Dar¬ 
aus resultiert dann wieder eine große Feh¬ 
lertoleranz gegenüber verrauschten Ein¬ 
gabedaten. 

Fehlertoleranz steht wieder in enger Be¬ 
ziehung zu biologischen Neuronalen Net¬ 
zen, bei denen diese Eigenschaft sehr aus¬ 
geprägt ist: Wie schon bemerkt, hat ein 
Mensch ca. IO 11 Neurone, die sich aber 
kontinuierlich umstrukturieren oder durch 
Einflüsse von außen umstrukturiert wer¬ 
den (bei einem Vollrausch verliert ein 
Mensch ca. 10 5 Neurone, auch bestimm¬ 
te Arten Nahrungsmittel oder Umweltein¬ 
flüsse zerstören Gehirnzellen) - trotzdem 


N. Netz 
lernfähig 
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N. Netz 
fehlerto¬ 
lerant 


wird unsere Kognitionsfähigkeit nicht we¬ 
sentlich beeinträchtigt. Das Gehirn ist also 
tolerant gegenüber inneren Fehlern - und 
auch gegenüber Fehlern von außen, denn 
so manche „Sauklaue“ können wir immer 
noch lesen, obwohl einzelne Buchstaben 
vielleicht gar nicht wirklich auszumachen 
sind. 

Unsere moderne Technologie hingegen ist 
noch nicht automatisch fehlertolerant - 
mir ist noch kein Computer bekannt, 
in dem jemand vergessen hat, den Fest¬ 
plattencontroller einzubauen, weshalb die 
Grafikkarte automatisch dessen Job über¬ 
nimmt, Leiterbahnen ausbaut und Kom¬ 
munikation entwickelt, so dass der fehlen¬ 
de Baustein das Gesamtsystem nur wenig 
beeinträchtigt, aber auf keinen Fall völlig 
lahmlegt. 

Nachteil dieser verteilten, fehlertoleranten 
Speicherung ist natürlich, dass wir einem 
Neuronalen Netz nicht ohne weiteres anse- 
hen können, was es weiß, kann oder wo sei¬ 
ne Fehler liegen - Analysen dieser Art sind 
bei herkömmlichen Algorithmen in der Re¬ 
gel wesentlich leichter. Auch bekommen 
wir das Wissen in unser Neuronales Netz 
meistens nur durch einen Lernvorgang, bei 
dem verschiedene Fehler passieren können 
und der nicht immer einfach zu handhaben 
ist. 

Fehlertoleranz von Daten ist bei der ak¬ 
tuellen Technologie schon wesentlich aus¬ 
gereifter: Vergleichen wir eine Schallplat¬ 
te mit einer CD. Ist auf der Schallplatte 
ein Kratzer, so ist die Toninformation an 
der Stelle des Kratzers für einen winzigen 
Moment komplett verloren (man hört ein 


Knacken), danach geht die Musik weiter. 
Bei einer CD sind die Audiodaten verteilt 
gespeichert: Ein Kratzer sorgt für einen 
unschärferen Ton in seiner näheren Umge¬ 
bung, der Datenstrom an sich bleibt aber 
weitestgehend unbeeinträchtigt - mit der 
Folge, dass der Hörer ihn nicht bemerkt. 

Wir halten also die herausragenden Merk¬ 
male fest, die wir aus der Biologie zu ad¬ 
aptieren versuchen: 

D> Selbstorganisation bzw. Lernfähig¬ 
keit, 

> Generalisierungsfähigkeit und 

D> Fehlertoleranz. 

Welche Arten von Neuronalen Netzen wel¬ 
che Fähigkeiten besonders stark ausbilden, 
welche für was für Problemklassen nutzbar 
sind, werden wir im Verlauf dieser Arbeit 
noch herausfinden. 

Direkt im Einleitungskapitel dieser Arbeit 
sei gesagt: „Das Neuronale Netz“ gibt es 
so nicht. Es gibt viele verschiedene Para¬ 
digmen, was Neuronale Netze sind, wie sie 
trainiert und wo sie eingesetzt werden - 
und mein Ziel ist es, einige dieser Paradig¬ 
men anschaulich vorzustellen und mit Be¬ 
merkungen für die praktische Anwendung 
zu versehen. 

Oben haben wir bereits erwähnt, dass die 
Arbeit z.B. unseres Gehirns im Gegensatz 
zur Arbeit eines Computers massiv paral¬ 
lel stattfindet, also jeder Baustein zu jeder 
Zeit aktiv ist. Möchte man nun ein Argu¬ 
ment für den Nutzen massiver Parallel Ver¬ 
arbeitung anführen, so wird oft die 100 - 
Schritt-Regel genannt. 


Wichtig! 
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Parallele 

Verarbeitung 


1.1.1 Die 100-Schritt-Regel 

Durch Experimente hat man festgestellt, 
dass ein Mensch ein Bild eines bekannten 
Gegenstandes bzw. einer bekannten Per¬ 
son in ~ 0.1 Sekunden erkennen kann, also 
bei einer Neuronenschaltzeit von ~ 10~ 3 
Sekunden in ~ 100 diskreten Zeitschritten 
paralleler Verarbeitung. 

Ein der Von-Neumann-Architektur folgen¬ 
der Rechner hingegen kann in 100 Zeit¬ 
schriften sequentieller Verarbeitung, also 
beispielsweise 100 Assemblerschritten oder 
Taktschritten, so gut wie nichts tun. 

Nun wollen wir ein einfaches Anwendungs¬ 
beispiel betrachten, bei dem ein Neurona¬ 
les Netz zum Einsatz kommen könnte. 



o a 


Abbildung 1.1: Ein kleiner Roboter mit acht 
Sensoren und zwei Motoren. Der Pfeil zeigt die 
Fahrtrichtung an. 


1.1.2 Einfache Anwendungsbeispiele 

Angenommen, wir besitzen einen kleinen 
Roboter wie in Abb. 11.11 Dieser Robo¬ 
ter besitzt acht Abstandssensoren, aus de¬ 
nen er Eingabedaten gewinnt: Drei Senso¬ 
ren vorne rechts, weitere drei vorne links, 
und zwei hinten. Jeder dieser Sensoren lie¬ 
fert uns zu jeder Zeit einen reellen Zahlen¬ 
wert, wir erhalten also immer einen Input 
I E M 8 . 

In unserem einfachen Beispiel kann der Ro¬ 
boter trotz seiner zwei Motoren (die brau¬ 
chen wir später) noch nicht viel: Er soll 
einfach immer fahren, aber anhalten, wenn 
er Gefahr läuft an ein Hindernis zu stoßen. 
Unser Output ist also binär: H = 0 für 
„Alles okay, fahr weiter“ und H = 1 für 
„Halte an“ (Wir nennen den Output H für 


„Haltesignal“). Wir benötigen also eine Ab¬ 
bildung 

/ : M 8 —^B 1 , 

welche die Inputsignale einer Robotertätig¬ 
keit zuführt. 

1.1.2.1 Der klassische Weg 

Es gibt nun zwei Wege, diese Abbildung 
zu realisieren. Zum einen gibt es den klas¬ 
sischen Weg : Wir setzen uns eine Weile hin 
und denken nach, so dass wir am Ende eine 
Schaltung oder ein kleines Computerpro¬ 
gramm erhalten, dass die Abbildung reali¬ 
siert (bei der Einfachheit des Beispieles ist 
das natürlich ohne weiteres möglich). An¬ 
schließend nehmen wir die technischen Re- 
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ferenzen der Sensoren zur Hand, studieren 
die Kennlinie der Sensoren, um zu wissen, 
was für Werte bei welchen Hindernisent¬ 
fernungen ausgegeben werden, und binden 
die Werte in unser oben gebautes Regel¬ 
werk ein. Solche Verfahren finden in der 
klassischen Künstlichen Intelligenz Anwen¬ 
dung, und falls man die Regeln für eine 
Abbildung exakt kennt, ist man auch gut 
beraten, diesem Schema zu folgen. 


1.1.2.2 Der Weg des Lernens 


Für uns hier interessanter und für viele 
Abbildungen und Probleme, welche nicht 
auf Anhieb erfassbar sind, auch erfolgrei¬ 
cher ist aber der Weg des Lernens: Wir 
zeigen dem Roboter verschiedene Situatio¬ 


nen (Abb. 1.2 auf der folgenden Seite), in 
denen er sich beispielsweise befinden kann 
- und er soll selbst lernen, 

Roboter leben zu tun ist. 


was m seinem 


In diesem Beispiel soll er einfach lernen, 
wann anzuhalten ist. Wir stellen uns hier¬ 
zu erst einmal das Neuronale Netz als eine 


Art Black Box (Abb. 1.3) vor, kennen 


also nicht seinen Aufbau, sondern betrach¬ 
ten es rein in seinem Verhalten nach au¬ 
ßen. 


Die Situationen in Form von einfach ge¬ 
messenen Sensorwerten (wir stellen den 
Roboter z.B. einfach vor ein Hindernis, sie¬ 
he Abbildung), die wir dem Roboter zei¬ 
gen und für die wir ihm vorgeben, ob wei¬ 
terzufahren oder zu halten ist, nennen wir 
Trainingsbeispiele - ein Trainingsbeispiel 



Abbildung 1.3: Wir betrachten die Roboter¬ 
steuerung zunächst als Black Box, deren Innen¬ 
leben uns unbekannt ist. Die Black Box nimmt 
einfach acht reelle Sensorwerte entgegen und bil¬ 
det diese auf einen binären Ausgabewert ab. 


besteht also aus einem beispielhaften In¬ 
put und einem dazugehörigen gewünsch¬ 
ten Output. Die Frage ist nun, wie wir die¬ 
ses Wissen, die Information, in das Neuro¬ 
nale Netz transportieren. 


Die Beispiele lassen sich durch ein ein¬ 
faches Lernverfahren einem Neuronalen 
Netz beibringen (ein Lernverfahren ist ein 
einfacher Algorithmus bzw. eine mathema¬ 
tische Formel). Hier wird das Neuronale 
Netz, wenn wir alles richtig gemacht und 
gute Beispiele gewählt haben, aus den Bei¬ 
spielen generalisieren und so eine allge¬ 
meingültige Vorschrift finden, wann anzu¬ 
halten ist. 


Unser Beispiel ist beliebig erweiterbar - 
die Motoren unseres Roboters könnten 
auch zwecks Richtungssteuerung separat 
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Abbildung 1.2: Der Roboter wird in eine Landschaft platziert, die ihm Sensorwerte für verschiedene 
Situationen liefert. Die gewünschten Ausgabewerte H geben wir selbst hinzu, und erhalten so unsere 
Lernbeispiele. Bei zwei Robotern sind exemplarisch die Richtungen aufgetragen, in die die Sensoren 
weisen. 


steuerbar sein 2 * * * * * , bei ansonsten gleichem 
Sensorlayout. In diesem Fall suchen wir ei¬ 
ne Abbildung 

/ : M 8 —>■ M 2 , 

welche die beiden Motoren anhand der 
Sensorinputs stufenlos steuert und so den 
Roboter z.B. nicht nur anhalten, sondern 
auch Hindernissen ausweichen lassen kann 
- hier ist es schon schwieriger, aus dem 
Kopf Regeln abzuleiten, und de facto ein 
Neuronales Netz angebrachter. 

2 Es gibt einen Roboter namens Khepera, der in et¬ 

wa diese Eigenschaften besitzt. Er ist rund, hat ca. 

7cm Durchmesser, besitzt zwei Motoren mit Rä¬ 

dern und verschiedene Sensoren. Zur Veranschau¬ 

lichung kann ich nur empfehlen, einmal im Internet 

danach zu recherchieren. 


Ziel ist es also nicht etwa, die Beispiele aus¬ 
wendig zu lernen - sondern das Prinzip 
dahinter zu realisieren: Der Roboter soll 
das Neuronale Netz im Idealfall in beliebi¬ 
gen Situationen anwenden und Hindernis¬ 
sen ausweichen können. Insbesondere soll 
der Roboter das Netz während des Fah¬ 
rens kontinuierlich bzw. oft direkt hinter¬ 
einander befragen können, um kontinuier¬ 
lich Hindernissen auszuweichen. Dies er¬ 
gibt einen ständigen Kreislauf: Der Robo¬ 
ter befragt das Netz. Er fährt dadurch in 
eine Richtung, wodurch sich seine Sensor¬ 
werte verändern. Er befragt wieder das 
Netz und verändert abermals seine Positi¬ 
on, die Sensorwerte verändern sich erneut, 
und so weiter. Dass sich dieses System 
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auch auf dynamische, das heißt sich selbst 
verändernde Umwelten (z.B. bewegte Hin¬ 
dernisse in unserem Beispiel) adaptieren 
lässt, ist ersichtlich. 


1.2 Zur Geschichte 
Neuronaler Netze 


Wie jedes Naturwissenschaftliche Gebiet 
hat auch die Lehre der Neuronalen Net¬ 
ze eine Entwicklungsgeschichte hinter 
sich, welche, wie wir gleich sehen werden, 
Höhen und Tiefen aufweist. Dem Stil mei¬ 
ner Arbeit treu bleibend stelle ich diese 
Geschichte nicht als Text, sondern kom¬ 
pakter als Zeitleiste dar. Zitat- und Lite¬ 
raturangaben werde ich hier im Wesentli¬ 
chen bei Punkten nieder sehr eiben, welche 
im weiteren Skriptum nicht mehr bearbei¬ 
tet werden. Zu Stichworten, die wir später 
noch genauer ergründen, werden die Zita¬ 
tangaben in den entsprechenden Kapiteln 
geliefert. 

Die Geschichte nimmt ihren Anfang in 
den frühen 1940er Jahren und damit fast 
zeitgleich mit der Geschichte der program¬ 
mierbaren elektronischen Computer. Wie 
auch bei der Informatik an sich erkennt 
man die Jugend des Gebiets daran, dass 
viele der erwähnten Personen auch heute 
noch unter uns weilen. 


1.2.1 Anfänge 

Bereits 1943 beschreiben Warren Mc- 
Culloch und Walter Pitts eine 


Art neurologischer Netzwerke, bau¬ 
en Schwellwertschalter durch Neuro¬ 
ne nach und zeigen, dass selbst ein¬ 
fache Netze dieser Art praktisch je¬ 
de logische oder auch arithmetische 
Funktion berechnen können |MP43 . 
Weiter entstehen erste Computervor¬ 
läufer („ Elektronengehirne “), u.a. 
unterstützt von Konrad ZuSE, der 
es leid war, ballistische Bahnen per 
Hand zu berechnen. 


1947 nennen WALTER PlTTS und WAR¬ 
REN McCulloch ein praktisches An¬ 
wendungsgebiet (in ihrer Arbeit von 
1943 wurde noch kein solches ge¬ 
nannt), nämlich die Erkennung räum¬ 
licher Muster durch Neuronale Net¬ 
ze |PM47 . 


1949: Donald O. Hebb formu¬ 
liert die klassische Hebb’s che 

Lernregel (Heb49 , welche in ihrer all¬ 
gemeineren Form die Basis fast aller 
neuronalen Lernverfahren darstellt. 
Sie besagt, dass die Verbindung 
zwischen zwei Neuronen verstärkt 
wird, wenn beide Neurone gleichzeitig 
aktiv sind - die Verstärkung ist 
also proportional zum Produkt 
beider Aktivitäten. Hebb konnte 
diese Regel zwar postulieren, jedoch 
in Ermangelung neurologischer 
Forschung nicht verifizieren. 


1950 vertritt Neuropsychologe Karl 
Lashley die These, dass die Informa¬ 
tionsspeicherung im Gehirn verteilt 
realisiert wird. Begründet wird seine 
These an Versuchen mit Ratten, bei 
denen nur der Umfang und nicht 


Neuronale 
Techniken 
werden ent¬ 
wickelt 
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Abbildung 1.4: Einige Urgesteine des Fachbereichs der Neuronalen Netze. Von links nach rechts: 
John von Neumann, Donald 0. Hebb, Marvin Minsky, Bernard Widrow, Seymour Papert, Teuvo 
Kohonen, John Hopfield, alle weitestgehend „in Order of appearance". 


der Ort zerstörten Nervengewebes 
ihre Leistung beeinflusst, aus einem 
Labyrinth zu finden. 

1.2.2 Blütezeit 

1951 entwickelt Marvin Minsky für sei¬ 
ne Dissertation den Neurocomputer 
Snark , der seine Gewichte 3 bereits 
automatisch justieren kann, aber nie 
praktisch eingesetzt wird - da er zwar 
fleißig rechnet, jedoch niemand so ge¬ 
nau weiss, was. 

1956 treffen sich auf dem Dartmouth 
Summer Research Project renom¬ 
mierte Wissenschaftler und aufstre¬ 
bende Studierende und diskutieren, 
salopp gesagt, wie man ein Gehirn 
nachbilden kann - Unterschiede zwi¬ 
schen Top-Down- und Bottom-Up- 
Forschung bilden sich heraus. Wäh¬ 
rend die frühen Anhänger der Artifi¬ 
cial Intelligence Fähigkeiten durch 
Software nachbilden möchten, haben 
die Anhänger der Neuronalen Netze 

3 Wir werden bald erfahren, was Gewichte sind. 


im Sinn, Systemverhalten durch Nach¬ 
bildung kleinster Systemteile, der 
Neurone, zu erreichen. 

1957 - 1958 entwickeln Frank Rosen¬ 
blatt, Charles Wightman und 
ihre Mitarbeiter am MIT den ers¬ 
ten erfolgreichen Neurocomputer, das 
Mark I Perceptron , welches mit 
einem 20 x 20 Pixel großen Bildsen¬ 
sor einfache Ziffern erkennen kann 
und 512 motorbetriebene Potentiome¬ 
ter besitzt - pro variablem Gewicht 
eins. 

1959 beschreibt Frank Rosenblatt 
verschiedene Varianten des Percep- 
trons, formuliert und beweist sein 
Perceptron-Konvergenz- Theorem. Er 
beschreibt an der Retina orientierte 
Neuronenschichten, Schwellwertschal¬ 
ter und eine Lernregel, welche die Ver¬ 
bindungsgewichte justiert. 

1960 stellen Bernard Widrow und 
Marcian E. Hoff das ADALINE 
(ADAptive Linear NEuron) vor 
|WH60] , ein schnell und genau lernen¬ 
des adaptives System, das wohl das 


Entwicklung 

beschleunigt 

sich 


io 
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1.2 Geschichte Neuronaler Netze 


Erste 

verbreitete 

Verwendung 


erste verbreitet kommerziell eingesetz¬ 
te Neuronale Netz darstellte: Es war 
praktisch in jedem Analogtelefon zur 
Echtzeit-Echofilterung zu finden und 
lernte mit der Widrow-Hoff-Lernregel 
bzw. Deltaregel. Hoff, ein Mitbe¬ 
gründer von Intel, war zu diesem 
Zeitpunkt Doktorand von Widrow, 
der seinerseits einer der Erfinder 
der modernen Mikroprozessoren war. 
Einer der Fortschritte der Delta- 
Regel gegenüber dem ursprünglichen 
Perceptron-Lernalgorithmus war ihre 
Adaptivität: War man weit von der 
richtigen Lösung entfernt, so verän¬ 
derten sich auch die Verbindungsge¬ 
wichte in größeren Schritten, die in 
der Nähe des Ziels kleiner werden - 
Nachteil: bei falscher Anwendung er¬ 
hält man unendlich kleine Schrittwei¬ 
ten zum Ziel in der Nähe desselben. 
Während der späteren Flaute und aus 
Angst vor der wissenschaftlichen Un¬ 
beliebtheit der Neuronalen Netze wur¬ 
de das ADALINE zwischenzeitlich in 
Adaptive Linear Element umbe¬ 
nannt - was später wieder rückgängig 
gemacht wurde. 

1961 stellt Karl Steinbuch Techniken 
assoziativer Speicherung vor, die als 
Vorgänger heutiger neuronaler Asso- 
ziativspeicher gesehen werden |Ste61 . 
Er beschreibt weiterhin Konzepte für 
neuronale Techniken und analysiert 
ihre Möglichkeiten und Grenzen. 


Neuronaler Netze. Allgemein nimmt 
man an, die grundlegenden Prinzipi¬ 
en selbstlernender und damit land¬ 
läufig gesprochen „intelligenter“ Sys¬ 
teme bereits entdeckt zu haben, was 
aus heutiger Sicht eine maßlose Über¬ 
schätzung darstellt, aber damals für 
hohe Popularität und genügend For¬ 
schungsmittel sorgte. 


1969 veröffentlichen Marvin Minsky 
und Seymour Papert eine genaue 
mathematische Analyse des Percep- 
trons [MP69 um zu zeigen, dass das 
Perceptronmodell viele wichtige Pro¬ 
bleme gar nicht repräsentieren kann 
(Stichwörter: XOR-Problem und li¬ 
neare Separierbarkeit) , und setzen so 
der Überschätzung, der Popularität 
und den Forschungsmitteln ein jähes 
Ende. Die weitergehende Folgerung, 
dass auch mächtigere Modelle die ex¬ 
akt gleichen Probleme aufweisen, ver¬ 
bunden mit der Prognose, dass das 
ganze Gebiet ein research dead-end 
sei, bewirken einen fast kompletten 
Rückgang der Forschungsgelder für 
die nächsten 15 Jahre, so unzutref¬ 
fend diese Prognosen aus heutiger 
Sicht auch waren. 


1.2.3 Lange Stille und langsamer 
Wiederaufbau 


Forschungs¬ 
mittel werden 
gestrichen 


1965 gibt Nils Nilsson in seinem Buch Wie oben bereits gesagt - Forschungs- 
Learning Machines einen Überblick gelder wurden extrem knapp. So wurde 
über die Fortschritte und Arbei- zwar überall ein wenig weiter geforscht, es 
ten dieser Periode der Erforschung gab aber keine Kongresse und sonstigen 
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Backprop 

entwickelt 


Veranstaltungen und demzufolge auch we¬ 
nig Veröffentlichungen. Diese Isolation der 
einzelnen Forschenden sorgte für die vie¬ 
len Paradigmen Neuronaler Netze, welche 
voneinander isoliert entstanden sind: Man 
forschte, redete aber nicht miteinander. 

Trotz der geringen Anerkennung des Ge¬ 
biets wurden in dieser Zeit die theoreti¬ 
schen Grundlagen für die noch andauernde 
Renaissance gelegt: 


1972 stellt Teuvo Kohonen ein Modell 
des linearen Assoziators, eines As¬ 
soziativspeichermodells vor [Koh72 , 
es wird im gleichen Jahr davon un¬ 
abhängig von James A. Anderson 
aus neurophysiologischer Sicht präsen¬ 
tiert [And72 . 

1973 verwendet Christoph von der 
Malsburg ein Neuronenmodell, was 
nichtlinear und biologisch besser mo¬ 
tiviert ist jvdM73 . 


1974 entwickelt Paul Werbos für sei¬ 
ne Dissertation in Harvard das Back¬ 
propagation of Error-Lernverfahren 
[Wer74 , das aber erst ein Jahrzehnt 
später seine heutige Bedeutung er¬ 
langt. 


1976 - 1980 und danach werden von 
Stephen Grossberg viele Arbeiten 
(z.B. |Gro76] ) vorgestellt, in denen ei¬ 
ne Vielzahl von neuronalen Modellen 
mathematisch genau analysiert wird. 
Er widmet sich weiterhin ausführlich 
dem Problem, ein Neuronales Netz 
lernfähig zu halten, ohne bereits 
erlernte Assoziationen wieder zu 
zerstören - hieraus entstanden unter 


Mitarbeit von Gail Carpenter die 
Modelle der Adaptive Resonance 
Theory , kurz ART. 


1982 beschreibt Teuvo Kohonen die 
nach ihm benannten selbstorgani¬ 
sierenden Karten (seif organizing 
feature maps, SOM) [Koh82 Koh98| 
auf der Suche nach den Mechanismen 
der Selbstorganisation des Gehirns (er 
wusste, dass die Informationen über 
den Aufbau von Wesen im Genom 
gespeichert sind, das aber ganz we¬ 
sentlich zu wenig Speicherplatz für ei¬ 
ne Struktur wie das Gehirn besitzt 
- folglich muss sich das Gehirn zum 
Großteil selbst organisieren und auf¬ 
bauen) . 

Weiterhin beschreibt John Hop- 
field die nach ihm benannten Hop- 
fieldnetze |Hop82 , welche durch die 
Gesetze des Magnetismus in der Phy¬ 
sik inspiriert sind. Sie erfuhren wenig 
technische Anwendungen, aber das 
Gebiet der Neuronalen Netze kam 
langsam wieder ins Rollen. 

1983 wird von Fukushima, Miyake und 
Ito das neuronale Modell Neocogni- 
tron zur Erkennung handgeschriebe¬ 
ner Zeichen vorgestellt |FMI83|, wel¬ 
ches eine Erweiterung des schon 1975 
entwickelten Cognitrons darstellt. 


1.2.4 Renaissance 

Durch den Einfluss u.a. John Hopfields, 
der viele Forscher persönlich von der Wich¬ 
tigkeit des Gebiets überzeugte, und die 
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1.2 Geschichte Neuronaler Netze 


Wieder¬ 

aufleben 


weite Publikation von Backpropagation 
durch Rumelhart, Hinton und Wil¬ 
liams machte sich im Gebiet der Neuro¬ 
nalen Netze langsam wieder Aufschwungs¬ 
stimmung breit. 


1985 veröffentlicht John Hopfield 

einen Artikel, der Wege beschreibt, 
akzeptable Lösungen für das 

Travelling Salesman Problem durch 
Hopfieldnetze zu finden. 


1986 wird das Lernverfahren Backpropa¬ 
gation of Error als Verallgemeine¬ 
rung der Delta-Regel durch die Paral¬ 
lel Distributed Processing -Gruppe se¬ 
parat entwickelt und weit publiziert 
|RHW86a : Nicht linear separierbare 
Probleme wurden durch mehrschich¬ 
tige Perceptrons lösbar, Marvin Mins- 
kys Negativabschätzungen waren mit 
einem Schlag widerlegt. Weiterhin 
machte sich zeitgleich in der Artifici¬ 
al Intelligence eine gewisse Ermüdung 
breit, verursacht durch eine Reihe von 
Fehlschlägen und untertroffenen Hoff¬ 
nungen. 


Ab dieser Zeit findet eine geradezu explo¬ 
sive Entwicklung des Forschungsgebie¬ 
tes statt, die zwar nicht mehr stich¬ 
punktfähig ist, aber von der wir einige 
Resultate noch Wiedersehen werden. 


D> Ein Buch über Neuronale Netze oder 
N eur oinformat ik, 

D> eine Arbeitsgruppe an einer Universi¬ 
tät, die mit Neuronalen Netzen arbei¬ 
tet, 

D> ein Software-Tool, welches Neuronale 
Netze realisiert („Simulator“), 

D> eine Firma, die Neuronale Netze ein¬ 
setzt, und 

D> ein Produkt oder eine Dienstleistung, 
die mit Neuronalen Netzen realisiert 
wurde. 

Aufgabe 2. Nennen Sie mindestens vier 
Anwendungen von technischen Neurona¬ 
len Netzen, jeweils zwei aus den Berei¬ 
chen Mustererkennung und Funktionsap¬ 
proximation. 

Aufgabe 3. Charakterisieren Sie kurz die 
vier Phasen der Entwicklung Neuronaler 
Netze und geben Sie aussagekräftige Bei¬ 
spiele für jede Phase an. 


Übungsaufgaben 

Aufgabe 1. Suchen Sie für jeden der fol¬ 
genden Punkte mindestens ein Beispiel: 
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Kapitel 2 

Biologische Neuronale Netze 


Wie lösen biologische Systeme Probleme? Wie funktioniert ein System von 
Neuronen? Wie kann man dessen Funktionalität erfassen? Wozu sind 
verschieden große Mengen von Neuronen imstande? Wo im Nervensystem 
findet Informationsverarbeitung statt? Ein kleiner biologischer Überblick über 
die große Komplexität einfacher Bausteine Neuronaler 
Informationsverarbeitung. Zusätzlich die Überleitung zu deren Vereinfachung, 

um sie technisch adaptieren zu können. 


Bevor wir anfangen, Neuronale Netze auf 
technischer Seite zu beschreiben, ist ein 
kleiner Exkurs in die Biologie der Neuro¬ 
nalen Netze und der Kognition von Lebe¬ 
wesen sinnvoll - der Leser kann das fol¬ 
gende Kapitel gerne überspringen, ohne et¬ 
was Technisches zu verpassen. Ich möch¬ 
te es aber jedem empfehlen, der ein we¬ 
nig über die zugrundeliegende Neurophy¬ 
siologie wissen und sehen möchte, was für 
eine Karikatur der Natur unsere kleinen 
Ansätze, die Technischen Neuronalen Net¬ 
ze sind - und wie mächtig die natürlichen 
Pendants sein müssen, wenn wir mit unse¬ 
ren kleinen Ansätzen schon so weit kom¬ 
men. Wir wollen nun kurz das Nervensys¬ 
tem von Wirbeltieren betrachten: Wir wer¬ 
den mit sehr grober Granularität beginnen 
und uns bis ins Gehirn und dann auf die 
Ebene der Neurone Vorarbeiten. Über das 
ganze Kapitel hinweg haben mir die bei¬ 


den Bücher [CROO.KSJOO sehr geholfen, 


die ich als weiterführende Literatur ange¬ 
ben möchte. 


2.1 Das Nervensystem von 
Wirbeltieren 


Das komplette informationsverarbeitende 
System, das Nervensystem eines Wirbel¬ 
tiers, besteht, um erst einmal eine einfache 
Unterteilung vorzunehmen, aus dem Zen¬ 
tralnervensystem und dem peripheren Ner¬ 
vensystem. In der Realität ist eine ganz 
so starre Unterteilung nicht sinnvoll, aber 
hier hilft sie uns bei der Skizzierung der 
Informationsverarbeitung im Körper. 
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2.1.1 Peripheres und zentrales 
Nervensystem 


Das periphere Nervensystem ( PNS ) 
besteht aus den Nerven, die außerhalb des 
Gehirns bzw. Rückenmarks gelegen sind. 
Diese Nerven bilden ein verzweigtes und 
sehr dichtes Netz durch den ganzen Kör¬ 
per. Zum peripheren Nervensystem gehö¬ 
ren beispielsweise die Spinalnerven, wel¬ 
che vom Rückenmark ausgehen (in Höhe 
eines jeden Wirbels zwei) und Extremitä¬ 
ten, Hals und Rumpf versorgen, aber auch 
die direkt zum Gehirn führenden Hirnner¬ 
ven. 


Das zentrale Nervensystem (ZNS) 
hingegen stellt quasi den „Zentralcompu¬ 
ter“ im Wirbeltier dar. Hier werden Infor¬ 
mationen gespeichert und verwaltet, die 
durch Sinnesorgane von außen aufgenom¬ 
men werden. Weiter steuert und reguliert 
es die inneren Vorgänge, und koordiniert 
nicht zuletzt sämtliche motorischen Leis¬ 
tungen des Organismus. Das zentrale Ner¬ 
vensystem der Wirbeltiere setzt sich zu¬ 
sammen aus dem eigentlichen Gehirn 
und dem Rückenmark (Abb. 2.1). Wir 
wollen aber besonderes Augenmerk auf das 
Gehirn legen. Das Gehirn unterteilt man 


vereinfachend in vier Bereiche (Abb. 2.2 


auf der rechten Seite), die hier kurz ge¬ 


nannt werden sollen. 


2.1.2 Das Großhirn ist für abstrakte 
Denkaufgaben zuständig 

Das Großhirn ( Telencephalon) ist der 
Bereich des Gehirns, der sich im Laufe 



Abbildung 2.1: Skizze des zentralen Nervensys¬ 
tems mit Rückenmark und Gehirn. 
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2.1 Das Nervensystem von Wirbeltieren 



Abbildung 2.2: Skizze des Gehirns. Eingefärbte 
Bereiche des Gehirns werden im Text behandelt. 
Je weiter wir von der abstrakten Informations¬ 
verarbeitung in Richtung der direkten reflexhaf¬ 
ten gehen, desto dunkler sind die Gehirnbereiche 
eingefärbt. 


der Evolution mit am meisten verändert 
hat. Er ist entlang einer Achse, welche den 
Kopf von Gesichtsseite bis Hinterkopf zen¬ 
tral durchläuft, in zwei Hemisphären ge¬ 
teilt, welche eine in sich gefaltete Struk¬ 
tur aufweisen. Diese Teile sind über einen 
großen Nervenstrang {„Balken“) und meh¬ 
rere kleine miteinander verbunden. Eine 
Vielzahl von Neuronen liegt in der ca. 2-4 
cm dicken Großhirnrinde (Cortex ), die 
in verschiedene Rindenfelder einzuteilen 
ist, von denen jedes eine eigene Aufgabe 
hat. Primäre Rindenfelder sind hier 
für die Verarbeitung qualitativer Informa¬ 
tion zuständig, wie beispielsweise das Ver¬ 
walten von verschiedenen Wahrnehmun¬ 
gen (z.B. die Verwaltung des Sehsinnes ist 
Aufgabe des visuellen Cortexes). Asso¬ 
ziationsfelder hingegen absolvieren hö¬ 


here, abstraktere Assoziations- und Denk¬ 
vorgänge; in Ihnen ist auch unser Gedächt¬ 
nis untergebracht. 


2.1.3 Das Kleinhirn steuert und 
koordiniert die Motorik 


Das Kleinhirn (Cerebellum ) ist unter¬ 
halb des Großhirns gelegen, also näher 
am Rückenmark. Entsprechend dient es 
weniger abstrakten Funktionen mit höhe¬ 
rer Priorität: Hier werden große Teile der 
motorischen Koordination absolviert, al¬ 
so Gleichgewicht und Bewegungen gesteu¬ 
ert und laufend fehler korrigiert. Zu diesem 
Zweck besitzt das Kleinhirn direkte senso¬ 
rische Informationen über die Muskellän¬ 
gen sowie akustische und visuelle Informa¬ 
tionen. Weiter erhält es auch Meldungen 
über abstraktere motorische Signale, die 
vom Großhirn ausgehen. 

Beim Menschen ist das Kleinhirn deut¬ 
lich kleiner als das Großhirn, dies ist aber 
eher eine Ausnahme: Bei vielen Wirbel¬ 
tieren ist dieses Verhältnis nicht so stark 
ausgeprägt. Betrachtet man die Evolution 
der Wirbeltiere, so ist nicht das Kleinhirn 
„zu klein“ sondern das Großhirn „zu groß“ 
geraten (immerhin ist es die am höchs¬ 
ten entwickelte Struktur des Wirbeltierge¬ 
hirns). Die beiden restlichen Gehirnteile 
seien ebenfalls noch kurz betrachtet: Das 
Zwischenhirn und der Hirnstamm. 
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Thalamus 

filtert 

eingehende 

Daten 


2.1.4 Das Zwischenhirn steuert 
grundlegende Körpervorgänge 

Das Zwischenhirn (Diencephalon ) um¬ 
fasst wieder einige Teile, von denen nur der 
Thalamus einer kurzen Betrachtung un¬ 
terzogen werden soll: Dieser Teil des Zwi¬ 
schenhirns ist das Medium zwischen sen¬ 
sorischen und motorischen Signalen und 
Großhirn: Insbesondere wird im Thala¬ 
mus entschieden, welcher Teil der Infor¬ 
mation an das Großhirn weitergeleitet 
wird, so dass gerade weniger wichtige Sin¬ 
neswahrnehmungen kurzfristig ausgeblen¬ 
det werden können, um Überlastungen 
zu vermeiden. Als weiterer Teil des Zwi¬ 
schenhirns steuert der Hypothalamus ei¬ 
ne Vielzahl körperinterner Vorgänge. Das 
Zwischenhirn ist auch maßgeblich betei¬ 
ligt am Schlaf-Wach-Rhythmus des Men¬ 
schen („innere Uhr“) und der Schmerzemp¬ 
findung. 

2.1.5 Der Hirnstamm verbindet 
Hirn und Rückenmark und 
steuert Reflexe 

Verglichen mit dem Zwischenhirn ist 
der Hirnstamm bzw. das Stammhirn 
(Truncus cerebri) stammesgeschichtlich 
deutlich älter: Es markiert, grob gespro¬ 
chen, das „verlängerte Rückenmark“ und 
damit die Überleitung vom Gehirn zum 
Rückenmark. Auch der Hirnstamm kann 
wieder in verschiedene Teile unterteilt wer¬ 
den, von denen einige exemplarisch vorge- 
stellt werden sollen. Die Funktionen gehen 
weiter vom Abstrakten in Richtung des 
Grundlegenden. Ein wichtiger Bestandteil 


ist die Pons (=Brücke), eine Art Durch¬ 
gangsstation für sehr viele Nervensigna- 
le vom Gehirn an den Körper und umge¬ 
kehrt. 

Wird die Pons geschädigt (beispielswei¬ 
se durch einen Hirninfarkt), so kann 
es zum Locked-In-Syndrom kommen - 
dem Eingeschlossensein in den eigenen 
Körper, ein Zustand, in dem es für einen 
Menschen bei voller geistiger Leistungsfä¬ 
higkeit völlig unmöglich ist, sich auf ir¬ 
gendeine Weise der Außenwelt zu vermit¬ 
teln. Man kann nicht sprechen, sich nicht 
bewegen, während Seh-, Hör-, Geruchs¬ 
und Geschmackssinn in aller Regel völlig 
normal funktionieren. Als letzte Kommu¬ 
nikationsmöglichkeit verbleibt Locked-In- 
Patienten meist nur die Augenbewegung 
oder Zwinkern. 

Weiter ist der Hirnstamm für viele grund¬ 
legende Reflexe zuständig, wie z. B. den 
reflexartigen Augenlidschluss oder Hus¬ 
ten. 

Alle Teile des Nervensystems haben eine 
Sache gemeinsam: Es werden Informatio¬ 
nen verarbeitet. Dies geschieht durch rie¬ 
sige Ansammlungen von Milliarden sehr 
ähnlicher Zellen, die an sich sehr einfach 
gebaut sind, aber fortlaufend miteinander 
kommunizieren. Große Gruppen dieser Zel¬ 
len senden dann koordiniert Signale und 
erreichen so die gewaltige Informations¬ 
verarbeitungskapazität, die wir von unse¬ 
rem Gehirn kennen. Wir wechseln nun von 
der Ebene der Gehirnteile auf die zellulä¬ 
re Ebene im Körper - auf die Ebene der 
Neuronen. 
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2.2 Das Neuron 


2.2 Neuronen sind 

informationsverarbeitende 

Zellen 


Bevor wir auf die Funktionen und Vor¬ 
gänge innerhalb eines Neurons genauer 
eingehen, sei hier zunächst eine Skizze 
der Neuronenfunktion geliefert: Ein Neu¬ 
ron ist nichts weiter als ein Schalter mit 
einem Informationseingang und -ausgang. 
Der Schalter wird aktiviert, wenn genug 
Reize anderer Neurone am Informations¬ 
eingang auftreffen. Am Informationsaus¬ 
gang wird dann ein Impuls an z.B. andere 
Neurone gesendet. 


2.2.1 Bestandteile eines Neurons 


Wir wollen nun die Einzelbestandteile ei¬ 


nes Neurons (Abb. 2.3 auf der folgen¬ 


den Seite) betrachten. Wir gehen dabei 


den Weg, den die elektrische Information 
im Neuron nimmt. Den Dendriten eines 
Neurons zugeleitet wird die Information 
über spezielle Übergangsstellen, die Syn¬ 
apsen. 


2.2.1.1 Synapsen gewichten die 

einzelnen Informationsanteile 

Von anderen Neuronen oder sonstigen Zel¬ 
len eingehende Signale werden einem Neu¬ 
ron über spezielle Übergangsstellen, die 
Synapsen zugeleitet. Solch eine Über¬ 
gangsstelle liegt meistens an den Dendri¬ 
ten eines Neurons, manchmal auch direkt 


am Soma. Man unterscheidet elektrische 
und chemische Synapsen. 

Die einfachere von beiden Varianten ist die 
elektrische Synapse. Ein elektrisches Si¬ 
gnal, welches auf der Synapse eingeht, al¬ 
so von der präsynaptischen Seite kommt, 
wird direkt in den postsynaptischen Zell¬ 
kern fortgeleitet. Es liegt also eine direkte, 
starke, nicht regulierbare Verbindung von 
Signalgeber zu Signalempfänger vor, zum 
Beispiel sinnvoll für Fluchtreflexe, die in 
einem Lebewesen „hart codiert“ sein müs¬ 
sen. 

Die ausgeprägtere Variante ist die chemi¬ 
sche Synapse. Hier findet keine direkte 
elektrische Kopplung von Quelle und Ziel 
statt, sondern diese Kopplung ist unter¬ 
brochen durch den synaptischen Spalt. 
Dieser Spalt trennt die prä- und postsyn¬ 
aptische Seite elektrisch voneinander. Den¬ 
noch muss ja Information fließen, werden 
Sie jetzt denken, also wollen wir darauf 
eingehen, wie das passiert: Nämlich nicht 
elektrisch, sondern chemisch. Auf der prä¬ 
synaptischen Seite des synaptischen Spalts 
wird das elektrische Signal in ein chemi¬ 
sches konvertiert, indem dort chemische 
Signalstoffe freigesetzt werden (sog. Neu¬ 
rotransmitter). Diese Neurotransmitter 
überwinden den synaptischen Spalt und 
übertragen die Information in den Zellkern 
(das ist sehr vereinfacht ausgedrückt, wir 
werden später noch sehen, wie das genau 
funktioniert), wo sie wieder in elektrische 
Information umgewandelt wird. Die Neu¬ 
rotransmitter werden sehr schnell wieder 
abgebaut, so dass auch hier sehr genaue 
Informations-Impulse möglich sind. 


Elektrische 

Synapse 

einfach 
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Abbildung 2.3: Skizze eines biologischen Neurons mit Beschriftung von im Text verwendeten 
Bestandteilen. 


Trotz der viel komplizierteren Funktions¬ 
weise hat die chemische Synapse im Ver¬ 
gleich zur elekrischen Variante eklatante 
Vorteile: 

Einwegschaltung: Die chemische Synap¬ 
se ist eine Einwegschaltung. Dadurch, 
dass der prä- und postsynaptische 
Teil nicht direkt elektrisch verbunden 
sind, können elektrische Impulse im 
postsynaptischen Teil nicht auf den 
präsynaptischen überschlagen. 

Regulierbarkeit: Es gibt eine Vielzahl 
verschiedener Neurotransmitter, die 
noch dazu in verschiedenen Mengen 
in einem synaptischen Spalt freige¬ 
setzt werden können. So gibt es 
Neurotransmitter, die anregend auf 
den postsynaptischen Zellkern wirken, 
aber auch andere, die eine solche An¬ 
regung wieder abflauen lassen. Man¬ 


che Synapsen geben ein stark an¬ 
regendes Signal weiter, manche nur 
schwach anregende Signale. Die Re¬ 
gulierungsvielfalt ist enorm, und dass 
die Synapsen hier auch noch varia¬ 
bel sind, also mit der Zeit eine stär¬ 
kere oder schwächere Verbindung dar¬ 
stellen können, ist einer der zentralen 
Punkte bei Betrachtung der Lernfä¬ 
higkeit des Gehirns. 


2.2.1.2 Dendriten sammeln alle 
Informationsanteile 

Dendriten verästeln sich baumartig vom 
Zellkern des Neurons (den man Soma 
nennt) und dienen der Aufnahme von elek¬ 
trischen Signalen aus vielen verschiedenen 
Quellen, die dann in den Zellkern über¬ 
tragen werden. Die sich verästelnde Men- 
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ge von Dendriten wird auch Dendriten¬ 
baum genannt. 

2.2.1.3 Im Soma werden die 
gewichteten Informationsanteile 
aufkumuliert 

Nachdem über Synapsen und Dendriten ei¬ 
ne Fülle an aktivierenden (=anregenden) 
und inhibierenden (=abschwächenden) Si¬ 
gnalen beim Zellkern (Soma) eingetroffen 
ist, kumuliert das Soma diese Signale auf. 
Sobald das aufkumulierte Signal einen ge¬ 
wissen Wert (Schwellwert genannt) über¬ 
schreitet, löst der Neuronenzellkern seiner¬ 
seits einen elektrischen Impuls aus, der 
dann zur Weiterleitung an die nachfolgen¬ 
den Neuronen bestimmt ist, zu denen das 
aktuelle Neuron verbunden ist. 

2.2.1.4 Das Axon leitet ausgehende 
Impulse weiter 

Die Weiterleitung des Impulses zu anderen 
Neuronen erfolgt durch das Axon. Das 
Axon ist ein fadenartiger Fortsatz des So¬ 
mas. Ein Axon kann im Extremfall ca. 
einen Meter lang werden (z.B. im Rücken¬ 
mark). Das Axon ist elektrisch isoliert, um 
das elektrische Signal besser leiten zu kön¬ 
nen (später mehr dazu) und mündet in 
Dendriten, um die Information an z.B. an¬ 
dere Neurone weiterzugeben. Wir sind also 
wieder am Anfang unserer Beschreibung 
der Neuronenbestandteile angelangt. Na¬ 
türlich kann ein Axon aber auch Infor¬ 
mationen an andere Zellenarten zu deren 
Steuerung übertragen. 


2.2.2 Elektrochemische Vorgänge 
im Neuron und seinen 
Bestandteilen 

Nachdem wir nun den Weg eines elek¬ 
trischen Signals von den Dendriten über 
die Synapsen in den Zellkern, und von 
dort über das Axon in weitere Dendri¬ 
ten verfolgt haben, wollen wir einen klei¬ 
nen Schritt von der Biologie in Richtung 
Technik gehen. Auf diesem Weg soll ver¬ 
einfacht vorgestellt werden, wie die Infor¬ 
mationsverarbeitung elektrochemisch von¬ 
statten geht. 

2.2.2.1 Neuronen erhalten ein 

elektrisches Membranpotential 
aufrecht 

Ein grundlegender Aspekt ist, dass die 
Neurone gegenüber ihrer Umwelt eine elek¬ 
trische Ladungsdifferenz, ein Potential auf¬ 
weisen. Innerhalb der Membran (=Hül- 
le) des Neurons herrscht also eine andere 
Ladung vor als außen. Diese Ladungsdif¬ 
ferenz ist ein zentraler Begriff, den man 
braucht, um die Vorgänge im Neuron zu 
verstehen, wir nennen sie Membranpo¬ 
tential. Das Membranpotential, also der 
Ladungsunterschied, entsteht durch meh¬ 
rere Arten geladener Atome (Zone), die 
innerhalb und außerhalb des Neurons un¬ 
terschiedlich hoch konzentriert sind. Wenn 
wir von innen nach außen durch die Mem¬ 
bran stoßen, werden wir bestimmte Ar¬ 
ten Ione häufiger oder weniger häufig vor¬ 
finden als innen, wir nennen diesen Ab¬ 
fall oder Anstieg der Konzentration einen 
Konzentrations gradienten. 
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Betrachten wir das Membranpotential zu¬ 
nächst für den Ruhezustand des Neurons, 
nehmen wir also an, es treffen gerade kei¬ 
ne elektrischen Signale von außen ein. In 
diesem Fall beträgt das Membranpotential 
—70 mV. Da wir gelernt haben, dass die¬ 
ses Potential von Konzentrationsgradien¬ 
ten verschiedener Ionen abhängt, ist natür¬ 
lich eine zentrale Frage, wie diese Konzen¬ 
trationsgradienten aufrecht erhalten wer¬ 
den: Normalerweise herrscht ja überall Dif¬ 
fusion vor, also sind alle Ionen bestrebt, 
Konzentrationsgefälle abzubauen und sich 
überall gleichmäßig zu verteilen. Würde 
das passieren, würde das Membranpoten¬ 
tial gegen 0 mV gehen, schlussendlich wür¬ 
de also kein Membranpotential mehr vor¬ 
handen sein. Das Neuron erhält sein Mem¬ 
branpotential also aktiv aufrecht, um In¬ 
formationsverarbeitung betreiben zu kön¬ 
nen. Wie geht das vonstatten? 

Das Geheimnis liegt in der Membran 
selbst, die für manche Ione durchlässig ist, 
für andere aber nicht. Um das Potential 
aufrecht zu erhalten, wirken hier mehrere 
Mechanismen gleichzeitig: 

Konzentrationsgradient: Wie schon be¬ 
schrieben, versuchen die Ionen, immer 
möglichst gleichverteilt vertreten zu 
sein. Ist innerhalb des Neurons die 
Konzentration eines Ions höher als au¬ 
ßen, versucht es nach außen zu diffun¬ 
dieren und umgekehrt. Das positiv ge¬ 
ladene Ion K + (Kalium) ist im Neu¬ 
ron häufig, außerhalb des Neurons 
weniger anzutreffen, und diffundiert 
darum langsam durch die Membran 
aus dem Neuron hinaus. Eine weite¬ 
re Sammlung negativer Ionen, zusam¬ 


menfassend A - genannt, bleibt aber 
im Neuron, da die Membran hierfür 
nicht durchlässig ist. Das Neuronen¬ 
innere wird also negativ: Negative A- 
Ionen bleiben, positive K-Ionen ver¬ 
schwinden, das Innere der Zelle wird 
negativer. Dies führt uns zu einem 
weiteren Gradienten. 

Elektrischer Gradient: Der elektrische 
Gradient wirkt dem Konzentra¬ 
tionsgradienten entgegen. Das 
Zellinnere ist mittlerweile sehr 
negativ geworden, also zieht es 
positive Ionen an: K + möchte nun 
wieder in die Zelle hinein. 

Würde man diese beiden Gradienten nun 
einfach sich selbst überlassen, so würden 
sie sich irgendwann ausgleichen, einen sta¬ 
bilen Zustand erreichen und ein Membran¬ 
potential von —85 mV würde entstehen. 
Wir wollen aber auf ein Ruhemembranpo¬ 
tential von —70 mV hinaus, es muss also 
Störkomponenten geben, die dies verhin¬ 
dern. Zum einen gibt es noch ein weiteres 
wichtiges Ion, Na + (Natrium), für das die 
Membran zwar nicht besonders durchläs¬ 
sig ist, das aber trotzdem langsam durch 
die Membran in die Zelle einströmt. Das 
Natrium fühlt sich hierbei doppelt nach in¬ 
nen getrieben: Zum einen gibt es weniger 
Natrium im inneren des Neurons als außen, 
zum anderen ist Natrium positiv, das Zel¬ 
linnere aber negativ, ein zweiter Grund, in 
die Zelle zu wollen. 

Durch die geringe Natriumdiffusion ins 
Zellinnere nimmt die Natriumkonzentrati¬ 
on im Zellinneren zu, gleichzeitig wird das 
Zellinnere aber weniger negativ, so dass 
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der Einstrom von K + langsamer wird (wir 
sehen: Das ist ein komplizierter Mechanis¬ 
mus, in dem alles sich gegenseitig beein¬ 
flusst). Durch Natrium wird das Zellinne¬ 
re tendentiell weniger negativ gegenüber 
der Umwelt. Auch mit diesen beiden Ionen 
könnte aber immer noch ein Stillstand er¬ 
reicht werden, in dem sich alle Gradienten 
ausgleichen und nichts mehr passiert. Nun 
kommt aber das fehlende Mosaiksteinchen, 
auf das wir warten: Eine „Pumpe“ (eigent¬ 
lich das Protein ATP ) bewegt aktiv Ionen 
entgegen der Richtung, zu der sie eigent¬ 
lich möchten! 

Natrium wird aktiv aus der Zelle raus¬ 
gepumpt, obwohl es entlang des 
Konzentrations- und des elektrischen 
Gradienten in die Zelle möchte. 

Kalium hingegen diffundiert stark aus der 
Zelle heraus, wird aber wieder aktiv 
hineingepumpt. 

Aus diesem Grund nennen wir die Pum¬ 
pe auch Natrium-Kalium-Pumpe. Die 
Pumpe erhält sowohl für Natrium als 
auch für Kalium den Konzentrationsgra¬ 
dienten aufrecht, so dass eine Art Fließ¬ 
gleichgewicht entsteht und das Ruhepoten¬ 
tial schlussendlich bei den beobachteten 
—70 mV landet. Zusammenfassend wird 
das Membranpotential also aufrecht erhal¬ 
ten, indem die Membran für manche Io¬ 
nen gar nicht durchlässig ist und andere 
Ionen aktiv entgegen der Konzentrations¬ 
und elektrischen Gradienten gepumpt wer¬ 
den. Nachdem wir nun wissen, dass jedem 
Neuron ein Membranpotential zueigen ist, 
wollen wir genau betrachten, wie ein Neu¬ 
ron Signale empfängt und versendet. 


2.2.2.2 Veränderungen im 

Membranpotential aktivieren 
das Neuron 

Oben haben wir gelernt, dass Natrium und 
Kalium durch die Membran hindurchdif¬ 
fundieren können, Natrium langsam, Ka¬ 
lium schneller. Dies geschieht durch in 
der Membran enthaltene Kanäle, Natrium- 
bzw. Kaliumkanäle. Neben diesen immer 
geöffneten Kanälen, die für die Diffusi¬ 
on verantwortlich sind und durch die 
Natrium-Kalium-Pumpe ausgeglichen wer¬ 
den, gibt es auch Kanäle, die nicht immer 
geöffnet sind, sondern nur „nach Bedarf“ 
geöffnet werden. Da sich durch eine Öff¬ 
nung dieser Kanäle die Konzentration von 
Ionen innerhalb und außerhalb der Mem¬ 
bran verändern, ändert sich logischerweise 
auch das Membranpotential. 

Diese steuerbaren Kanäle werden geöff¬ 
net, wenn der aufkumulierte eingehen¬ 
de Reiz einen gewissen Schwellwert über¬ 
schreitet. Eingehende Reize können bei¬ 
spielsweise von anderen Neuronen kom¬ 
men oder aber von anderen Ursachen her¬ 
rühren: So gibt es zum Beispiel spezialisier¬ 
te Formen von Neuronen, Sinneszellen, für 
die z.B. Lichteinfall einen solchen Reiz dar¬ 
stellen kann. Fällt dann genug Licht ein, 
um den Schwellwert zu überschreiten, wer¬ 
den steuerbare Kanäle geöffnet. 

Der besagte Schwellwert (das Schwellen¬ 
wertpotential) liegt bei ca. —55 mV. So¬ 
bald dieses von den eingehenden Reizen 
erreicht wird, wird das Neuron aktiviert 
und ein elektrisches Signal, ein Aktions¬ 
potential wird ausgelöst. Dieses Signal 
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wird dann weitergeleitet an diejenigen Zel¬ 
len, die mit dem betrachteten Neuron ver¬ 
bunden sind, also ihm „zuhören“. Die Pha¬ 
sen des Aktionspotentials wollen wir etwas 
genauer betrachten (Abb. |2.4 auf der lin- 
ken Seite): 

Ruhezustand: Nur die immer geöffneten 
Kalium- und Natriumkanäle liegen of¬ 
fen, das Membranpotential liegt bei 
—70 mV und wird vom Neuron aktiv 
dort gehalten. 

Stimulus bis Schwellwert: Ein Reiz (Sti¬ 
mulus) öffnet Kanäle, so dass Na¬ 
trium einströmen kann. Die Ladung 
des Zellinneren wird positiver. So¬ 
bald das Membranpotential über den 
Schwellenwert von —55 mV geht, wird 
das Aktionspotential ausgelöst, in¬ 
dem sehr viele Natriumkanäle geöff¬ 
net werden. 

Depolarisation: Natrium strömt ein. Wir 
erinnern uns, dass Natrium einströ¬ 
men möchte sowohl, weil davon deut¬ 
lich weniger in der Zelle vorhanden 
ist als außen, als auch, weil in der 
Zelle ein negatives Milieu vorherrscht, 
durch das das positive Natrium ange¬ 
zogen wird. Durch den starken Ein¬ 
strom steigt das Membranpotential 
drastisch an, bis auf ca. +30 mV. Dies 
ist dann der elektrische Impuls, das 
Aktionspotential. 


wesentlich höher konzentriert als 
außen, was den Ausstrom noch 
beschleunigt. Das Zellinnere wird 
wieder negativer geladen als die 
Außenwelt. 

Hyperpolarisation: Sowohl Natrium- als 
auch Kaliumkanäle werden wieder 
geschlossen. Zunächst ist das Mem¬ 
branpotential nun leicht negativer als 
das Ruhepotential, was daher kommt, 
dass die Kaliumkanäle sich etwas 
träger schließen, was Kalium (posi¬ 
tiv geladen) aufgrund seiner geringe¬ 
ren Konzentration außerhalb der Zel¬ 
le ausströmen lässt. Nach einer Re¬ 
fraktärzeit von 1 — 2 ms ist dann 
der Ruhezustand wieder hergestellt, so 
dass das Neuron auf neue Reize wie¬ 
der mit einem Aktionspotential rea¬ 
gieren kann. Die Refraktärzeit ist, ein¬ 
fach ausgedrückt, eine Zwangspause, 
welche ein Neuron einhalten muss, um 
sich zu regenerieren. Je kürzer sie ist, 
desto öfter kann ein Neuron pro Zeit 
feuern. 

Der so entstandene Impuls wird dann 

durch das Axon fort geleitet. 

2.2.2.3 Im Axon wird ein Impuls auf 
saltatorische Weise 
weitergeleitet 


Repolarisation: Natriumkanäle werden 
nun geschlossen, dafür werden die 
Kaliumkanäle geöffnet. Das positiv 
geladene Kalium will nun aus dem 
ebenfalls positiven Zellinneren heraus. 
Zusätzlich ist es im Zellinneren 


Wir haben schon gelernt, dass das Axon 
zur Fortleitung des Aktionspotentials über 
lange Distanzen dient (zur Erinnerung: 
Eine Illustration eines Neurons inklusive 
Axon findet sich in Abb. 2.3 auf Seite 20). 
Das Axon ist ein fadenartiger Fortsatz des 
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Somas. Bei Wirbeltieren ist es in der Re¬ 
gel von einer Myelinscheide umgeben, 
welche aus Schwannschen Zellen (im 
PNS) oder Oligodendrozyten (im ZNS) 
besteht 1 , die das Axon elektrisch sehr gut 
isolieren. Zwischen diesen Zellen befinden 
sich im Abstand von 0.1—2mm Lücken, die 
sogenannten Ranvierschen Schnürrin- 
ge, die jeweils dort auftreten, wo eine Iso¬ 
lationszelle zuende ist und die nächste an¬ 
fängt. An einem solchen Schnürring ist das 
Axon logischerweise schlechter isoliert. 

Man mag nun annehmen, dass diese 
schlecht isolierten Schnürringe von Nach¬ 
teil für das Axon sind: Dem ist aber nicht 
so. An den Schnürringen ist ein Stoffaus¬ 
tausch zwischen intrazellulärem und extra¬ 
zellulärem Raum möglich, der an Teilen 
des Axons, welche zwischen zwei Schnür¬ 
ringen liegen ( Internodien ) und so durch 
die Myelinscheide isoliert sind, nicht funk¬ 
tioniert. Dieser Stoffaustausch ermöglicht 
die Erzeugung von Signalen, ganz ähnlich 
der Erzeugung des Aktionspotentials im 
Soma. Die Weiterleitung eines Aktionspo¬ 
tentials funktioniert nun folgendermaßen: 
Es läuft nicht kontinuierlich entlang des 
Axons, sondern springt von einem Schnür¬ 
ring zum nächsten. Es läuft also eine Rei¬ 
he von Depolarisationen entlang der Ran- 
vierschnürringe. Ein Aktionspotential löst 
dominoartig das nächste aus, meist sind 
hierbei sogar mehrere Schnürringe gleich¬ 
zeitig aktiv. Durch das „Springen“ des Im¬ 

1 Sowohl Schwannsche Zellen als auch Oligodendro¬ 
zyten sind Ausprägungen der Gliazellen, von de¬ 
nen es ca. 50 mal mehr gibt als Neuronen, und 
die die Neuronen umgeben (Glia = Leim), vonein¬ 
ander isolieren, mit Energie versorgen, etc. 


pulses von einem Schnürring zum nächs¬ 
ten kommt diese Impulsleitung auch zu 
ihrem Namen: Saltatorische Impulslei¬ 
tung. 

Es ist offensichtlich, dass der Impuls 
schneller voran kommt, wenn seine Sprün¬ 
ge größer sind. So wird bei Axonen mit 
großen Internodien (2 mm) eine Signalaus¬ 
breitungsgeschwindigkeit von ca. 180 Me¬ 
tern pro Sekunde erreicht. Die Internodi¬ 
en können aber nicht beliebig groß wer¬ 
den, da das weiterzuleitende Aktionspo¬ 
tential sonst bis zum nächsten Schnürring 
zu sehr verblassen würde. Die Schnürringe 
haben also auch die Aufgabe, das Signal 
regelmäßig zu verstärken. Am Ende des 
Axons hängen dann - oft über Dendriten 
und Synapsen verbunden - die Zellen, wel¬ 
che das Aktionspotenzial empfangen. Wie 
oben schon angedeutet, können Aktions¬ 
potentiale aber nicht nur durch über die 
Dendriten eingehende Information von an¬ 
deren Neuronen entstehen. 

2.3 Rezeptorzellen sind 
abgewandelte Neurone 

Aktionspotentiale können auch durch sen¬ 
sorische Informationen, die ein Lebewesen 
aus seiner Umwelt mittels Sinneszellen auf¬ 
nimmt, herrühren. Spezialisierte Rezep¬ 
torzellen können für sie spezifische Reiz¬ 
energien wie Licht, Temperatur und Schall 
oder das Vorhandensein bestimmter Mole¬ 
küle wahrnehmen (wie es z.B. der Geruchs¬ 
sinn tut). Dies funktioniert, da diese Sin¬ 
neszellen eigentlich abgewandelte Neurone 
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sind: Hier werden keine elektrischen Signa¬ 
le über Dendriten aufgenommen, sondern 
das Vorhandensein des für die Rezeptorzel¬ 
le spezifischen Reizes sorgt dafür, dass sich 
Ionenkanäle öffnen und ein Aktionspoten¬ 
tial ausgebildet wird. Dieser Vorgang des 
Umwandeins von Reizenergie in Verände¬ 
rungen im Membranpotential nennt sich 
Sensorische Transduktion. In aller Re¬ 
gel ist die Reizenergie selbst zu schwach, 
um direkt Nervensignale auszulösen, und 
so findet entweder während der Transduk¬ 
tion oder durch den Reizleitenden Ap¬ 
parat auch gleich eine Signalverstärkung 
statt. Das resultierende Aktionspotential 
kann von anderen Neuronen verarbeitet 
werden und gelangt dann in den Thalamus, 
der, wie wir schon gelernt haben, als Tor 
zum Cerebralen Cortex Sinneseindrücke 
nach der momentanen Relevanz aussortie- 
ren und so einen Überfluss an zu verwal¬ 
tenden Informationen verhindern kann. 

2.3.1 Es existieren verschiedenste 
Rezeptorzellen für viele Arten 
von Wahrnehmungen 

Primärrezeptoren senden ihre Impulse 
direkt ans Nervenssystem. Schmerzempfin¬ 
dung ist hierfür ein gutes Beispiel. Hier ist 
die Reizstärke proportional zur Amplitu¬ 
de des Aktionspotentials, technisch ausge¬ 
drückt findet hier also eine Amplitudenmo¬ 
dulation statt. 

Sekundärrezeptoren senden hingegen 
durchgehend Impulse. Diese Impulse steu¬ 
ern dann die Menge des zugehörigen Neu¬ 
rotransmitters zur Weitergabe des Reizes, 


der wiederum die Frequenz der Aktionspo¬ 
tentiale des empfangenden Neurons steu¬ 
ert. Hier handelt es sich um Frequenzmo¬ 
dulation, eine Kodierung des Reizes, bei 
der man Zu- und Abnahme eines Reizes 
besser wahrnehmen kann. 

Rezeptorzellen können einzeln Vorkommen 
oder aber komplexe Sinnesorgane bilden 
(z.B. Augen oder Ohren). Es können so¬ 
wohl Reize im Körper empfangen wer¬ 
den (das machen dann Enterorezepto- 
ren) wie auch Reize außerhalb des Kör¬ 
pers (hierfür sind die Exterorezeptoren 
zuständig). 

Nachdem wir nun skizziert haben, wie In¬ 
formation aus der Umwelt aufgenommen 
wird, ist interessant zu betrachten, auf wel¬ 
che Weise sie verarbeitet wird. 


2.3.2 Informationsverarbeitung 
findet auf jeder Ebene des 
Nervensystems statt 

Es ist nämlich keinesfalls so, dass alle Infor¬ 
mationen ins Gehirn geleitet werden, dort 
verarbeitet werden, und das Gehirn da¬ 
nach für eine „Ausgabe“ in Form von mo¬ 
torischen Impulsen sorgt (das einzige, was 
ein Lebewesen in seiner Umwelt wirklich 
tun kann, ist ja, sich zu bewegen). Die 
Informationsverarbeitung ist komplett de¬ 
zentral angelegt. Um das Prinzip zu ver¬ 
deutlichen, wollen wir kurz ein paar Bei¬ 
spiele betrachten, für die wir in unserer In¬ 
formationsverarbeitungshierarchie wieder 
vom Abstrakten zum Grundlegenden wan¬ 
dern. 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


27 




Kapitel 2 Biologische Neuronale Netze 


dkriesel.com 


> Dass im Großhirn als höchstentwickel¬ 
ter Informationsverarbeitender Struk¬ 
tur in der Natur Informationsverarbei¬ 
tung stattfindet, ist klar. 

t> In der Hierarchie deutlich tiefer liegt 
das Mittelhirn und der Thalamus, den 
wir als Tor zur Großhirnrinde schon 
kennengelernt haben: Auch das von 
ihm betriebene Filtern von Informa¬ 
tionen nach aktueller Relevanz ist ei¬ 
ne sehr wichtige Art der Informati¬ 
onsverarbeitung. Doch auch der Tha¬ 
lamus erhält keine Reize von außen, 
die nicht bereits vorverarbeitet wur¬ 
den. Machen wir einen Sprung zur un¬ 
tersten Ebene, den Sinneszellen. 

> Bereits auf der untersten Ebene, 
den Rezeptorzellen, wird Information 
nicht nur aufgenommen und weiterge¬ 
leitet, sondern auch direkt verarbei¬ 
tet. Einer der Hauptaspekte zu die¬ 
sem Thema ist die Verhinderung von 
„Dauerreizen“ an das Zentralnerven¬ 
system durch sensorische Adapti¬ 
on: Bei kontinuierlicher Reizung wer¬ 
den sehr viele Rezeptorzellen automa¬ 
tisch unempfindlicher. Rezeptorzellen 
stellen also keine direkte Abbildung 
von spezifischer Reizenergie auf Ak¬ 
tionspotentiale da, sondern sind ab¬ 
hängig von der Vergangenheit. Wei¬ 
tere Sensoren ändern die Empfind¬ 
lichkeit je nach Situation: Es gibt 
Geschmacksrezeptoren, die je nach 
Ernährungszustand des Organismus 
mehr oder weniger stark auf densel¬ 
ben Reiz ansprechen. 


> Selbst bevor ein Reiz zu den Rezeptor¬ 
zellen vorstößt, kann durch einen vor¬ 
geschalteten signalführenden Apparat 
schon Informationsverarbeitung statt¬ 
finden, beispielsweise in Form von 
Verstärkung: Die Ohrmuschel und das 
Innenohr haben eine spezifische schall¬ 
verstärkende Form, welche es - in 
Verbindung mit den Sinneszellen des 
Hörsinns - ebenfalls ermöglich, dass 
der Nervenreiz nur logarithmisch mit 
der Intensität des gehörten Signals an¬ 
steigt. Dies ist bei näherer Betrach¬ 
tung auch sehr notwendig, da der 
Schalldruck der Signale, für die das 
Ohr gemacht ist, über viele Zehner¬ 
potenzen variieren kann. Eine loga- 
rithmische Messweise ist hier von Vor¬ 
teil. Erstens wird Überlastung vermie¬ 
den, und dass zweitens die Intensi¬ 
tätsmessung bei intensiven Signalen 
dadurch weniger genau wird, macht 
auch nichts: Wenn neben einem gera¬ 
de ein Düsenjet startet, sind winzige 
Schwankungen im Lärmpegel zu ver¬ 
nachlässigen. 

Um noch etwas mehr Bauchgefühl über 
Sinnesorgane und Informationsverarbei¬ 
tung im Organismus zu erhalten, sollen 
nun kurz „gängige“, also in der Natur 
häufig anzutreffende Lichtsinnesorgane be¬ 
schrieben werden. Beim dritten beschriebe¬ 
nen Lichtsinnesorgan, dem Einzellinsenau¬ 
ge, gehen wir dann auf Informationsverar¬ 
beitung ein, die noch direkt im Auge statt¬ 
findet. 
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2.3 Rezeptorzellen 


2.3.3 Eine Skizze häufiger 
Lichtsinnesorgane 

Für viele Lebewesen hat es sich als ex¬ 
trem nützlich erwiesen, elektromagneti¬ 
sche Strahlung in bestimmten Bereichen 
wahrzunehmen. Konsequenterweise sind 
Sinnesorgane entstanden, welche solch 
elektromagnetische Strahlung feststellen 
können, und der Wellenlängenbereich die¬ 
ser Strahlung, welcher für den Menschen 
wahrnehmbar ist, heißt dadurch sichtba¬ 
rer Bereich oder schlicht Licht. Verschie¬ 
dene Wellenlängen dieser sichtbaren Strah¬ 
lung nehmen wir Menschen durch ver¬ 
schiedene Farben wahr. Der sichtbare Be¬ 
reich der elektromagnetischen Strahlung 
ist nicht bei allen Lebewesen gleich, man¬ 
che Lebewesen können Farben (=Wellen¬ 
längenbereiche) nicht sehen, die wir sehen 
können, andere Lebewesen können sogar 
zusätzliche Wellenlängenbereiche (z.B. im 
UV-Bereich) wahrnehmen. Bevor wir zum 
Menschen kommen, wollen wir kurz - um 
etwas breiter angelegtes Wissen zum Seh¬ 
sinn zu erhalten — zwei Sehsinnesorgane be¬ 
trachten, die evolutionär gesehen vor dem 
Menschen da waren. 


2.3.3.1 Komplexaugen und 

Lochkameraaugen bieten nur 
zeitlich bzw. örtlich hohe 
Auflösung 



Abbildung 2.5: Facettenaugen einer Raubfliege 


Das Komplexauge besteht aus vielen klei¬ 
nen, separaten Einzelaugen , die, wenn 
man das Komplexauge von außen betrach¬ 
tet, auch deutlich sichtbar sind und ein wa¬ 
benähnliches Muster erzeugen. Jedes Ein¬ 
zelauge im Komplexauge verfügt über eine 
eigene Nervenfaser als Anbindung an das 
Insektengehirn. Da wir die Einzelaugen se¬ 
hen können, ist klar, dass die Anzahl der 
Bildpunkte, also die spatiale Auflösung bei 
Komplexaugen recht niedrig liegen muss: 
Das Bild ist unscharf. Komplexaugen bie¬ 
ten aber auch Vorteile, gerade für schnellf¬ 
liegende Insekten: Bestimmte Arten Kom¬ 
plexaugen verarbeiten mehr als 300 Bilder 
pro Sekunde (dem Menschen hingegen er¬ 
scheinen schon Kinofilme mit 25 Bildern 
pro Sekunde als flüssige Bewegung). 


Komplexauge: 
Hohe zeitl., 
niedrige 
örtliche 
Auflösung 


Betrachten wir als erstes das sogenannte 
Komplexauge (Abb. |2.5[ ), auch Facet¬ 
tenauge genannt, welches beispielsweise 
bei Insekten und Krustentieren vorkommt. 


Lochkameraaugen kommen zum Bei¬ 
spiel bei Krakenarten vor und funktionie¬ 
ren - man errät es - ähnlich einer Lochka¬ 
mera. Es gibt ein winziges Lichteintritts¬ 
loch, welches ein scharfes Bild auf dahinter- 


Lochkamera 
Hohe örtl., 
niedrige 
zeitliche 
Auflösung 
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Einzellinsen¬ 
auge: Hohe 
zeitl. und örtl. 
Auflösung 


liegende Sinneszellen projiziert, die räum¬ 
liche Auflösung ist hier also deutlich höher 
als beim Komplexauge. Aufgrund des win¬ 
zigen Eintrittsloches ist das Bild aber sehr 
licht schwach. 


2.3.3.2 Einzellinsenaugen kombinieren 
beide Stärken, sind aber 
komplexer aufgebaut 

Die bei Wirbeltieren verbreitete Art des 
Lichtsinnesorgans ist das Einzellinsen¬ 
auge: Es vermittelt ein scharfes, hochauf¬ 
gelöstes Bild der Umwelt, bei hoher bzw. 
variabler Lichtstärke. Dafür ist es kompli¬ 
zierter aufgebaut. Wie beim Lochkamera¬ 
auge fällt Licht durch eine Öffnung ein 
( Pupille ) und wird im Auge auf eine 
Schicht Sinneszellen projiziert (Netzhaut 
oder Retina). Im Unterschied zum Loch¬ 
kameraauge kann der Öffnungsgrad der 
Pupille allerdings den Helligkeitsverhält- 
nissen angepasst werden (dies geschieht 
durch den Jris-Muskel, der die Pupille 
vergrößert oder verkleinert). Diese Unter¬ 
schiede im Pupillenöffnungsgrad machen 
eine aktive Scharfstellung des Bildes not¬ 
wendig, weswegen das Einzellinsenauge 
noch eine ebenfalls verstellbare Linse ent¬ 
hält. 


2.3.3.3 Die Retina ist nicht nur 

Empfänger, sondern verarbeitet 
Informationen 

Die auftreffenden Lichtsignale werden in 
der Retina aufgenommen und direkt durch 


mehrere Schichten informationsverarbei¬ 
tender Zehen vorverarbeitet. Wir wollen 
kurz verschiedene Punkte dieser Informati- 
onsvorverarbeitung betrachten und gehen 
dabei den Weg, den die vom Licht einge- 
brachte Information nimmt: 

Photorezeptoren empfangen das Lichtsi- 
gnal und lösen Aktionspotentiale aus 
(es gibt verschiedene Rezeptoren für 
verschiedene Farbanteile und Lichtin¬ 
tensitäten). Diese Rezeptoren sind 
der eigentlich lichtempfangende Teil 
der Retina und derart empfindlich, 
dass bereits das Auftreffen von einem 
einzigen Photon ein Aktionspotential 
auslösen kann. Mehrere Photorezepto¬ 
ren leiten dann ihre Signale an eine 
einzige 

Bipolarzelle weiter, hier ündet also be¬ 
reits eine Zusammenfassung der Infor¬ 
mation statt. Schlussendlich gelangt 
das nun umgewandelte Lichtsignal 
wieder von jeweils mehreren Bipolar¬ 
zellen 2 in die 

Ganglienzellen. Es können verschieden 
viele Bipolarzehen ihre Information 
an eine Ganglienzelle weiterleiten. Je 
höher die Zahl der Photorezeptoren, 
von denen die Ganglienzelle betroffen 
ist, um so größer ist der Wahrneh¬ 
mungsbereich, das Rezeptive Feld, 
welches die Ganglien abdeckt - und 
um so weniger Bildschärfe ist im 
Bereich dieser Ganglienzelle gegeben. 
Hier werden also direkt in der Retina 
bereits Informationen aussortiert und 

2 Es gibt wieder verschiedene Arten Bipolarzellen, 
deren Betrachtung hier aber zu weit führen würde. 
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2.4 Neuronenmengen in Lebewesen 


das Gesamtbild z.B. in Randsichtbe- 
reichen verunschärft. Bis jetzt haben 
wir die Informationsverarbeitung in 
der Retina aber als reine Top-Down- 
Struktur kennengelernt. Dies bringt 
uns nun zur Betrachtung der 

Horizontal- und Amakrinzellen. Diese 
Zellen sind nicht von vorne nach 
hinten, sondern lateral verbunden 
und machen es möglich, dass 
Lichtsignale sich direkt während 
der Informationsverarbeitung in der 
Retina lateral beeinflussen - eine 
viel mächtigere Art der Informati¬ 
onsverarbeitung als komprimieren 
und verunschärfen. Horizontalzellen 
ist es hierbei möglich, von einem 
Photorezeptor angeregt, andere nahe 
Photorezeptoren ebenfalls anzuregen 
und gleichzeitig weiter entfernte 
Bipolarzellen und Rezeptoren zu 
hemmen. Dies sorgt für die klare 
Wahrnehmung von Konturen und 
hellen Punkten. Amakrinzellen 
können weiter bestimmte Reize 
verstärken, indem sie Informationen 
von Bipolarzellen auf mehrere 
Ganglienzellen verteilen oder auch 
Ganglien hemmen. 

Wir sehen an diesem Anfang des Wegs vi¬ 
sueller Information ins Hirn, dass Infor¬ 
mationsverarbeitung zum einen vom ers¬ 
ten Moment der Informationsaufnahme 
stattfindet - und zum anderen parallel in 
Millionen von informationsverarbeitenden 
Zellen stattfindet. Kein Systembestandteil 
ruht jemals, und aus dieser massiven Ver¬ 
teilung der Arbeit zieht das Nervensystem 
seine Macht und Fehlerresistenz. 


2.4 Neuronenmengen in 
unterschiedlich hoch 
entwickelten Lebewesen 

Hier nun ein Überblick, welche verschie¬ 
denen Lebewesen was für eine Kapazität 
an Neuronen besitzen (zum Großteil aus 
[RD05] ): 

302 Neuronen benötigt das Nervensys¬ 
tem eines Fadenwurms, der einen be¬ 
liebten Modellorganismus in der Bio¬ 
logie darstellt. Fadenwürmer leben im 
Erdboden und ernähren sich von Bak¬ 
terien. 

IO 4 Neuronen ergeben eine Ameise (der 
Einfachheit halber sei vernachläs¬ 
sigt, dass manche Ameisenarten auch 
mehr oder weniger leistungsfähige 
Nervensysteme aufweisen können). 
Durch verschiedene Lockstoffe und 
Düfte sind Ameisen zu komplexem So¬ 
zialverhalten und zur Bildung von rie¬ 
sigen Staaten mit Millionen von Indi¬ 
viduen in der Lage. Sieht man nicht 
die Ameise, sondern einen solchen 
Staat als Individuum an, so kommt 
man ungefähr auf die kognitive Leis¬ 
tungsfähigkeit eines Schimpansen bis 
hin zum Menschen. 

Mit 10 5 Neuronen können wir das Ner¬ 
vensystem einer Fliege bauen. Ei¬ 
ne Fliege kann im dreidimensionalen 
Raum in Echtzeit ausweichen, durch 
einen Looping an der Decke landen, 
besitzt umfangreiche Sensorik durch 
Facettenaugen, Tasthaare, Nerven an 
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den Beinenden und vieles mehr. Ei¬ 
ne Fliege hat also „in Hardware“ um¬ 
fangreiche Differential- und Integral¬ 
rechnungen in hohen Dimensionen im¬ 
plementiert. Wir alle wissen, dass ei¬ 
ne Fliege schwer zu fangen ist. Na¬ 
türlich werden auch die Körperfunk¬ 
tionen von Neuronen gesteuert, diese 
seien aber hier außen vor gelassen. 

Mit 0.8 • 10 6 Neuronen haben wir genug 
Gehirnmasse für eine Honigbiene. Ho¬ 
nigbienen bilden Staaten und besit¬ 
zen erstaunliche Fähigkeiten im Be¬ 
reich der Luftaufklärung und Orien¬ 
tierung. 

4 • 10 6 Neurone ergeben eine Maus , hier 
sind wir schon in der Welt der Wirbel¬ 
tiere angelangt. 

1.5 • 10 7 Neurone reichen bereits für ei¬ 
ne Ratte , ein Tier, was als außeror¬ 
dentlich klug verschrien ist und oft 
als Teilnehmer für verschiedene an¬ 
schauliche Intelligenztests bezüglich 
der Tierwelt herangezogen wird. Rat¬ 
ten können außerordentlich gut rie¬ 
chen und sich orientieren, zeigen au¬ 
ßerdem Sozialverhalten. In etwa der¬ 
selben Größenordnung liegt das Ge¬ 
hirn eines Frosches. Der Frosch be¬ 
sitzt einen komplizierten und funkti¬ 
onsreichen Körperbau, kann schwim¬ 
men und ist zu komplexen Verhaltens¬ 
weisen fähig. Er kann besagte Flie¬ 
ge während einer Sprungbewegung im 
dreidimensionalen Raum durch sei¬ 
ne Augen kontinuierlich zielerfasssen 
und durch seine Zunge mit vertretba¬ 
rer Wahrscheinlichkeit fangen. 


5 • 10 7 Neurone ergeben eine Fleder¬ 
maus. Die Fledermaus kann sich in 
totaler Dunkelheit rein akustisch in 
einem Raum orientieren, auf mehrere 
Zentimeter genau. Die Fledermaus 
kann sich selbst tarnende Insekten 
(z.B Motten tarnen sich durch eine 
bestimmte Flügelstruktur, welche 
Schall schlecht zurückwirft) während 
des Fluges akustisch orten und 
ebenso während des Fluges fressen. 

1.6 • 10 8 Neurone benötigt das Gehirn 
eines Hundes , der seit jeher Wegge¬ 
fährte des Menschen ist. Kommen wir 
zu einem weiteren beliebten Gefähr¬ 
ten des Menschen: 

3 • 10 8 Neurone, also ca. doppelt so vie¬ 
le wie ein Hund, besitzt eine Katze. 
Wie wir wissen, sind Katzen sehr ele¬ 
gante, geduldige Raubtiere, fähig zu 
einer Vielzahl von Verhaltensweisen. 
In derselben Größenordnung liegt üb¬ 
rigens der Octopus, von dem nur weni¬ 
ge wissen, dass er z. B. in Labyrinth- 
Orientierungstests der Ratte deutlich 
überlegen ist. 

Für 6 • 10 9 Neurone gibt es bereits einen 
Schimpansen, eines der Tiere, die dem 
Menschen schon sehr ähneln. 

IO 11 Neurone besitzt ein Mensch. Der 
Mensch besitzt meist sehr umfangrei¬ 
che kognitive Fähigkeiten und ist in 
der Lage zu sprechen, zu abstrahieren, 
zu erinnern und Werkzeuge sowie das 
Wissen von anderen Menschen zu nut¬ 
zen, um fortgeschrittene Technologien 
und vielfältige soziale Strukturen zu 
entwickeln. 


32 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 




dkriesel.com 


2.5 Technische Neuronen als Karikatur der Biologie 


Mit 2 • IO 11 Neuronen gibt es Nerven¬ 
systeme, die mehr Neuronen besitzen 
als die des Menschen: Hier seien Ele- 
phanten und bestimmte Walarten ge¬ 
nannt. 


Bereits mit der oben (sehr dünn) be¬ 
schriebenen Rechenleistung einer Fliege 
können unsere aktuellen Computer schon 
nicht mehr mithalten. Neuere Forschungs¬ 
ergebnisse legen sogar nahe, dass die 
in Nervensystemen ablaufenden Prozes¬ 
se noch einmal deutlich mächtiger sind, 
als man bis vor kurzem noch dachte: 
Michaeva et al. beschreiben eine eige¬ 
ne Synapsen-integrierte Informationsver¬ 
arbeitung 


MBW + 10 . Inwiefern sich das 


bestätigt, wird die Zeit zeigen. 


2.5 Übergang zu technischen 
Neuronen: Neuronale 
Netze sind eine Karikatur 
der Biologie 


Wie kommen wir nun von den biologischen 
Neuronalen Netzen zu den technischen? 
Durch radikalste Vereinfachung. Hierzu 
möchte ich nun die für die technische Seite 
relevanten Erkenntnisse noch einmal kurz 
zusammenfassen: 

Wir haben gesehen, dass die biologischen 
Neurone miteinander auf gewichtete Wei¬ 
se vernetzt sind und ihr Signal bei Rei¬ 
zung elektrisch über das Axon übertra¬ 
gen. Von dort gelangen sie aber nicht 
direkt in die Nachfolgeneurone, sondern 
überwinden erst den synaptischen Spalt, 


in dem das Signal durch variierbare che¬ 
mische Vorgänge noch einmal verändert 
wird. Im empfangenden Neuron werden 
dann die vielen durch den synaptischen 
Spalt nachverarbeiteten Inputs zu einem 
Impuls zusammengefasst bzw. aufkumu¬ 
liert. Je nachdem, wie sehr das Neuron 
durch den kumulierten Input gereizt wird, 
gibt es dann selbst einen Impuls ab, oder 
nicht - der Output ist also nichtlinear, er 
ist nicht etwa proportional zum kumulier¬ 
ten Input. Unsere kurze Zusammenfassung 
entspricht nun genau den wenigen Fakto¬ 
ren biologischer Neuronaler Netze, welche 
wir in die technische Approximation über¬ 
nehmen wollen: 

Vektorieller Input: Der Input von techni¬ 
schen Neuronen hat viele Komponen¬ 
ten, ist also ein Vektor. In der Natur 
empfängt ein Neuron ja auch Impulse 
von durchschnittlich 10 3 bis IO 4 ande¬ 
ren Neuronen. 

Skalarer Output: Der Output eines Neu¬ 
rons ist ein Skalar, hat also nur eine 
Komponente. Viele skalare Outputs 
bilden dann wieder einen vektoriel¬ 
len Input eines anderen Neurons. Dies 
bedeutet insbesondere, dass irgendwo 
im Neuron die vielen Inputkomponen¬ 
ten so zusammengefasst werden müs¬ 
sen, dass nur eine Komponente übrig 
bleibt. 

Synapsen verändern Input: Auch in tech¬ 
nischen Neuronalen Netzen werden 
die Inputs vorverarbeitet, nämlich 
mit einer Zahl (dem Gewicht) multi¬ 
pliziert - also gewichtet. Die Menge al¬ 
ler dieser synaptischen Gewichte stel- 
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len - sowohl im biologischen als auch 
im technischen Sinne - den Informa¬ 
tionsspeicher des neuronalen Netzes 
dar. 

Aufkumulieren der Inputs: In der Biolo¬ 
gie werden die Inputs nach der chemi¬ 
schen Veränderung zu einem Impuls 
zusammengefasst, also aufkumuliert 
- in der Technik geschieht dies oft 
durch die gewichtete Summe, die wir 
noch kennenlernen werden. Im Neu¬ 
ron arbeiten wir also anstatt mit ei¬ 
nem Vektor nach der Aufkumulierung 
mit nur einem Wert, einem Skalar, 
weiter. 

Nichtlineare Kennlinie: Auch unsere 
technischen Neurone haben keinen 
zum Input proportionalen Output. 

Gewichte einstellbar: Die Gewichte, mit 
denen die Inputs gewichtet werden, 
sind variabel, ähnlich den chemischen 
Prozessen am synaptischen Spalt. 
Dies verleiht dem Netz eine große Dy¬ 
namik, denn in den Gewichten bzw. 
der Art und Stärke der chemischen 
Vorgänge in einem synaptischen Spalt 
wird das „Wissen“ eines Neuronalen 
Netzes zu großen Teilen gespeichert. 

Unser aktuelles, nur salopp formuliertes, 
sehr einfaches Neuronenmodell erhält also 
einen vektoriellen Input 

x, 

mit Komponenten Xi. Es kumuliert diese 
multipliziert mit den zugehörigen Gewich¬ 
ten Wi auf: 


Obiger Term wird auch gewichtete Summe 
genannt. Die nichtlineare Abbildung / be¬ 
stimmt dann den skalaren Output y: 



Nach dieser Überleitung wollen wir nun un¬ 
ser Neuronenmodell genauer spezifizieren 
und ihm noch einige Kleinigkeiten hinzufü¬ 
gen. Auf welche Weise Gewichte eingestellt 
werden können, werden wir anschließend 
ebenfalls betrachten. 

Übungsaufgaben 

Aufgabe 4. Es wird geschätzt, dass ein 
menschliches Gehirn etwa IO 11 Nervenzel¬ 
len besitzt, von denen jede etwa IO' 3 - 
IO 4 Synapsen aufweist. Gehen wir für die¬ 
se Aufgabe von 10 3 Synapsen pro Neuron 
aus. Nehmen wir weiter an, eine einzelne 
Synapse könnte 4 Bit an Information spei¬ 
chern. Naiv gerechnet: Welche Speicherka¬ 
pazität hat das Gehirn also? Beachten Sie, 
dass die Information, welches Neuron mit 
welchem anderen eine Verbindung besitzt, 
auch von Bedeutung ist. 
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Kapitel 3 

Bausteine künstlicher Neuronaler Netze 


Formale Definitionen und umgangssprachliche Erklärungen der Bestandteile, 
die die technischen Adaptionen der biologischen Neuronalen Netze ausmachen. 
Erste Beschreibungen, wie man diese Bestandteile zu einem Neuronalen Netz 

zusammensetzen kann. 


Dieses Kapitel beinhaltet die formalen De¬ 
finitionen für den Großteil der Bausteine 
Neuronaler Netze, die wir später verwen¬ 
den werden. Nach dem Ende dieses Kapi¬ 
tels kann man ohne weiteres auch einzelne 
Kapitel des Skriptums lesen, ohne die vor¬ 
angehenden zu betrachten (auch wenn das 
natürlich nützlich wäre). 

3.1 Der Zeitbegriff bei 
Neuronalen Netzen 

Bei manchen Definitionen verwenden wir 
in dieser Arbeit einen Begriff der Zeit bzw. 
der Durchlaufanzahl des Neuronalen Net¬ 
zes. Die Zeitrechnung unterteilt sich hier¬ 
bei in diskrete Zeitschritte: 

Definition 3.1 (Zeitbegriff). Die aktu¬ 
elle Zeit (Jetzt-Zeit) wird dabei als (t) 
bezeichnet, der nächste Zeitschritt mit 
(t + 1), der vorherige mit (t — 1) und 
sämtliche anderen analog. Beziehen sich 


verschiedene mathematische Größen (z.B. 
netj oder Oj) in den folgenden Kapiteln auf 
einen bestimmten Zeitpunkt, so lautet die 
Schreibweise hierfür z.B. net j(t — 1) oder 

Oi(t). 

Biologisch ist das natürlich nicht sehr plau¬ 
sibel (bei unserem Gehirn wartet auch kein 
Neuron auf ein anderes), aber die Imple¬ 
mentierung wird dadurch ganz wesentlich 
vereinfacht. 

3.2 Bestandteile Neuronaler 
Netze 

Ein technisches Neuronales Netz 
besteht aus simplen Recheneinheiten, 
den Neuronen, sowie gerichteten, 
gewichteten Verbindungen zwischen 
diesen. Die Verbindungsstärke (bzw. 
das Verbindungsgewc/if) zwischen zwei 
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Neuro. Netz 
= Neurone 
+ gewichtete 
Verbindung 

W i,j 


Neuronen i und j wollen wir als Wij 
bezeichnen 1 . 

Definition 3.2 (Neuronales Netz). Ein 
Neuronales Netz ist ein sortiertes Tri¬ 
pel ( N,V,w ) mit zwei Mengen N, V so¬ 
wie einer Funktion w, wobei N die Menge 
der Neurone bezeichnet und V eine Menge 
{(i,j)\i,j G N} ist, deren Elemente Ver¬ 
bindungen von Neuron i zu Neuron j hei¬ 
ßen. Die Funktion w : V —k M definiert die 
Gewichte , wobei das Gewicht 

der Verbindung von Neuron i zu Neuron 
j. kurz mit Wij bezeichnet wird. Sie ist je 
nach Auffassung entweder Undefiniert oder 
0 für Verbindungen, welche in dem Netz 
nicht existieren. 

SIMIPE: In Snipe instantiiert man 

zunächst ein Objekt der Klasse 
NeuralNetworkDescriptor, dass den 
groben Umriss eines Netzes definiert 
(z.B. die Anzahl der Neuronenschich¬ 
ten). Mittels des Descriptors kann man 
dann beliebig viele konkrete Neuronale 
Netze in Form von Objekten der Klasse 
NeuralNetwork instantiieren. Um mit der 
Snipe-Programmierung anzufangen, sind 
die Dokumentationen genau dieser beiden 
Klassen - in dieser Ordnung - der richtige 
Ort zum Lesen. Dieses Layout aus Des- 
criptor und abhängigen konkreten Netzen 
ist implementierungstechnisch durchaus 
sinnvoll, denn man kann damit effizient 
auch große Mengen ähnlicher (aber nicht 
unbedingt gleicher) Netze erzeugen, und 
verschiedene Parameter zentral ändern. 


1 Vorsicht beim Literaturstudium: Bei manchen Li¬ 
teraturstellen können die i und j in t vertauscht 
sein - hier gibt es keinen einheitlichen Standard. 
Generell bemühe ich mich aber, in diesem Skrip¬ 
tum die Schreibweise zu finden, die ich häufiger 
und an prominenteren Literaturstellen antreffe. 


Die Gewichtungen lassen sich also in einer 
quadratischen Gewichtsmatrix W oder 
wahlweise einem Gewichtsvektor W im¬ 
plementieren, wobei im Falle der Matrix 
die Zeilennummer angibt, von wo die Ver¬ 
bindung ausgeht, und die Spaltennummer, 
welches Neuron ihr Ziel ist. In diesem Fall 
markiert die Zahl 0 in der Tat eine nicht 
existierende Verbindung. Diese Matrixdar¬ 
stellung wird auch Hinton-Darstellung 
genannt 2 . 


Die Neurone und Verbindungen sind ihrer¬ 
seits aus folgenden Bestandteilen und Grö¬ 
ßen zusammengesetzt (ich gehe dabei den 
Weg, den die Daten innerhalb eines Neu¬ 
rons nehmen, der Abb. 13.1 auf der rechten 


Seite nach von oben nach unten): 


3.2.1 Verbindungen übertragen 
Informationen, die von den 
Neuronen verarbeitet werden 


Über die Verbindungen werden Daten zwi¬ 
schen Neuronen übertragen, wobei das 
Verbindungsgewicht entweder verstärkend 
oder hemmend wirkt. Die Definition von 
Verbindungen ist bereits in der Definition 
des Neuronalen Netzes eingeschlossen. 

SNIPE: Verbindungsgewichte 

lassen sich mit der Methode 
NeuralNetwork. setSynapse ändern. 


2 Wieder Vorsicht bei Literaturstudium: Bei man¬ 
chen Literaturstellen können Achsen und Zeilen 
vertauscht sein. Auch hier gibt es keine Konsistenz 
über die Gesamtliteratur. 
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3.2 Bestandteile Neuronaler Netze 


3.2.2 Die Propagierungsfunktion 
verwandelt vektorielle 
Eingaben zur skalaren 
Netzeingabe 



Abbildung 3.1: Datenverarbeitung eines Neu¬ 
rons. Die Aktivierungsfunktion eines Neurons 
beinhaltet den Schwellenwert. 


Wenn man ein Neuron j betrachtet, so fin¬ 
det man meistens eine ganze Menge Neu¬ 
rone, von denen eine Verbindung zu j aus¬ 
geht, die also Ausgaben an j weiterlei¬ 
ten. 

Die Propagierungsfunktion nimmt für 
ein Neuron j Ausgaben ,..., o,„ anderer 
Neurone i\, 12 , ■ ■ ■, i n entgegen (von denen 
eine Verbindung zu j existiert), und ver¬ 
arbeitet diese unter Berücksichtigung der 
Verbindungsgewichte Wjj zur Netzeinga¬ 
be netj, welche von der Aktivierungsfunk¬ 
tion weiterverwendet werden kann. Die 
Netzeingabe ist also das Ergebnis der 
Propagierungsfunktion. 

Definition 3.3 (Propagierungsfunkti¬ 
on und Netzeingabe). Es sei I = 
{*i, Z 2 , • • •, i n } die Menge der Neurone, bei 
denen gilt Vz E {1,..., n} : 3wi z j. Dann 
berechnet sich die Netzeingabe von j, ge¬ 
nannt netj , durch die Propagierungsfunk- 
tion ,/prop • 

netj = /prop(°ii > • ■ • > °i n , W iuj , . . • , WinJ ) 

(3.1) 


Verwaltet 

Eingaben 


Beliebt ist hier die Gewichtete Summe: 
Die Multiplikation der Ausgabe eines je¬ 
den i mit Wi j , und die Aufsummierung der 
Ergebnisse: 


netj = ^2{oi ■ w itj ) (3.2) 

iei 
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Wie aktiv 
ist ein 
Neuron? 


SNIPE: Die Gewichtete Summe ist exakt 3.2.4 Neuronen werden aktiviert, 

so in Snipe als Propagierungsfunktion rea- Wenn die Netzeingabe ihren 

lisiert Schwellenwert überschreitet 


3.2.3 Die Aktivierung ist der 

„Schaltzustand“ eines Neurons 


Nach dem Vorbild der Natur ist jedes Neu¬ 
ron zu jeder Zeit zu einem bestimmten 
Grad aktiv , gereizt, oder was man sonst für 
Ausdrücke verwenden möchte. Von diesem 
Aktivierungszustand hängen die Reaktio¬ 
nen des Neurons auf Eingaben ab. Der Ak¬ 
tivierungszustand gibt also den Grad der 
Aktivierung eines Neurons an und wird 
oft kurz als Aktivierung bezeichnet. Sei¬ 
ne formale Definition wird von der gleich 
folgenden Definition der Aktivierung sfunk- 
tion eingeschlossen. Allgemein kann man 
aber definieren: 

Definition 3.4 (Aktivierungszustand / 
Aktivierung allgemein). Sei j Neuron. 
Der Aktivierungszustand üj, kurz Aktivie¬ 
rung genannt, ist j eindeutig zugeordnet, 
bezeichnet den Grad der Aktivität des 
Neurons und ergibt sich aus der Aktivie¬ 
rungsfunktion. 

SIMIPE: Der Aktivierungszustand von Neu¬ 
ronen lässt sich mit den Methoden 
getActivation bzw. setActivation der 
Klasse NeuralNetwork abrufen bzw. set¬ 
zen. 


Um den Schwellenwert herum reagiert die 
Aktivierungsfunktion eines Neurons beson¬ 
ders empfindlich. Biologisch gesehen stellt 
der Schwellenwert die Reizschwelle dar, ab 
der ein Neuron feuert. Der Schwellenwert 
wird ebenfalls weitestgehend in der De¬ 
finition der Aktivierungsfunktion mitdefi¬ 
niert, allerdings kann man allgemein defi¬ 
nieren: 

Definition 3.5 (Schwellenwert allge¬ 
mein). Sei j Neuron. Der Schwellenwert 
Qj ist j eindeutig zugeordnet und markiert 
die Stelle der größten Steigung der Aktivie¬ 
rungsfunktion. 


3.2.5 Die Aktivierungsfunktion 
berechnet abhängig von 
Schwellenwert und 
Netzeingabe, wie stark ein 
Neuron aktiviert ist 

Wie wir schon gehört haben, hängt die 
Aktivierung aj eines Neurons j zu einem 
bestimmten Zeitpunkt davon ab, wie akti¬ 
viert das Neuron bereits war 3 und welche 
Eingaben es von außen erhalten hat. 

Definition 3.6 (Aktivierungsfunktion 
und Aktivierung). Sei j Neuron. Die Ak- 

3 Die vorherige Aktivierung muss nicht immer in die 
Berechnung des neuen Aktivierungszustandes mit- 
einbezogen werden - wir werden für beide Varian¬ 
ten Beispiele kennenlernen. 


Stelle 

höchster 

Empfindung 


0 


Berechnet 

Aktivierung 


38 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 





dkriesel.com 


3.2 Bestandteile Neuronaler Netze 


tivierungsfunktion ist definiert als 

aj(t) = fact(netj(t), aj(t - 1), @j) (3.3) 

und verarbeitet also die Netzeingabe netj 
und den alten Aktivierungszustand aj(t — 
1) zu einem neuen Aktivierungszustand 
aj(t), wobei der Schwellenwert 0 wie oben 
schon erläutert eine große Rolle spielt. 


Im Unterschied zu anderen Größen inner¬ 
halb des Neuronalen Netzes (insbesonde¬ 
re zu den bisher definierten) ist die Ak¬ 
tivierungsfunktion oft global für alle oder 
zumindest eine Menge von Neuronen de¬ 
finiert, nur die Schwellenwerte unterschei¬ 
den sich dann von Neuron zu Neuron. 
Auch sollten wir im Hinterkopf behalten, 
dass sich die Schwellenwerte z.B. durch 
einen Lernvorgang ändern sollten, so dass 
es insbesondere nötig werden kann, die 
Schwellenwerte auf die Zeit zu beziehen 
und z.B. Qj als Qj(t) zu schreiben (das 
habe ich hier der Übersichtlichkeit zuliebe 
erst einmal unterlassen). Die Aktivierungs¬ 
funktion wird auch oft als Transferfunk¬ 
tion bezeichnet. 


SNIPE: Aktivierungsfunktionen sind in 
Snipe generalisiert zu „Neuronenverhal- 
tensweisen“ (Neuron Behaviors). Diese 
können zum einen ganz normale Aktivie¬ 
rungsfunktionen repräsentieren, aber auch 
interne Zustände besitzen. Diesbezügliche 
Programmbestandteile befinden sich im 
Paket neuronbehavior, wo auch einige 
der gleich vorgestellten Aktivierungsfunk¬ 
tionen implementiert sind. Das Interface 
NeuronBehavior erlaubt die Implementie¬ 
rung eigener Verhaltensweisen. Objekte, 
die von diesem Interface erben, können 
einem NeuralNetworkDescriptor überge¬ 
ben werden; pro Neuronenschicht kann ei¬ 


ne Neuronenverhaltensweise festgelegt wer¬ 
den. 


3.2.6 Gängige 

Aktivierungsfunktionen 


Die einfachste Aktivierungsfunktion ist 
die binäre Schwellenwertfunktion 


(Abb. 3.2 auf der folgenden Seite), welche 


nur zwei Werte annehmen kann (auch 
Heaviside-Funktion genannt). Sie 
wechselt am Schwellenwert von einem 
Wert auf den andern, ist aber ansonsten 
konstant. Dies impliziert, dass sie am 
Schwellenwert nicht differenzierbar 
ist und die Ableitung ansonsten 0 
ist. Dies macht z.B. das Lernen mit 
Backpropagation unmöglich (später 
mehr dazu). Beliebt ist weiterhin die 
auch Logistische Funktion genannte 


Fermifunktion (Abb. 3.2) 


1 + e~ 


(3.4) 


welche einen Wertebereich von (0,1) auf¬ 
weist, sowie der Tangens Hyperbolicus 


(Abb. 3.2) mit einem Wertebereich von 


(—1,1) - beide differenzierbar. Die Fermi¬ 
funktion ist einfach um einen Tempera¬ 
turparameter T zu der Form 


1 




(3.5) 


erweiterbar, der, je kleiner man ihn wählt, 
die Funktion auf der x-Achse zusammen¬ 
staucht. So kann man sie beliebig an die 
Heaviside-Funktion annähern. Es existie¬ 
ren übrigens auch Aktivierungsfunktionen, 
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welche nicht eindeutig bestimmt sind, son¬ 
dern nach einer Zufallsverteilung von der 
Eingabe abhängen (stochastische Aktivie¬ 
rung sfu nktionen). 


Eine wirklich erwähnenswerte Alternati¬ 
ve zum Tangens Hyperbolicus wurde von 
Anguita et al. vorgeschlagen |APZ93 . In¬ 
spiriert von den eher langsamen Compu¬ 
tern, die es 1993 gab, haben sie sich Ge¬ 
danken gemacht, wie man ein Neurona¬ 
les Netz beschleunigen könnte, und kamen 
schnell darauf, dass die Approximation der 
e-Funktion im Tangens Hyperbolicus re¬ 
chenzeitmäßig sehr lange dauert. So haben 
sie den Tangens Hyperbolicus näherungs¬ 
weise mit zwei Parabelbögen und zwei 
Halbgeraden nachgebaut. Die resultieren¬ 
de Funktion bietet zwar statt des Wertebe¬ 


Heaviside-Funktion 



x 

Fermi-Funktion mit Temperaturparameter 



x 


richs von [—1; 1] „nur“ einen Wertebereich 
von [—0.96016; 0.96016], lässt sich aber - je 
nach CPU - um den Faktor 200 schneller 
mittels einer Addition und zwei Multipli¬ 
kationen berechnen und bietet auch noch 
weitere Vorteile, die an anderer Stelle ge¬ 
nannt werden. 


SNIPE: Die hier vorgestellten stetigen Akti¬ 
vierungsfunktionen finden sich in den Klas¬ 
sen Fermi sowie TangensHyperbolicus 
im Paket neuronbehavior wieder. Die 
schnelle Approximation des Tangens Hy¬ 
perbolicus befindet sich in der Klasse 
TangensHyperbolicusAnguita. 


Tangens Hyperbolicus 



x 


Abbildung 3.2: Verschiedene gängige Akti¬ 
vierungsfunktionen, von oben nach unten: 
Heaviside- bzw. Binäre Schwellenwertfunktion, 
Fermifunktion, Tangens hyperbolicus. Die Fermi- 
funktion wurde um einen Temperaturparameter 
erweitert. Die ursprüngliche Fermifunktion ist 
hierbei dunkel herausgestellt, die Temperaturpa¬ 
rameter bei den modifizierten Fermifunktionen 
betragen (aufsteigend geordnet nach Anstieg) 
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3.3 Verschiedene Netztopologien 


Gibt Infos 
zu anderen 
Neuronen 


/out 


3.2.7 Eine Ausgabefunktion kann 
genutzt werden, um die 
Aktivierung nochmals zu 
verarbeiten 

Die Ausgabefunktion eines Neurons j be¬ 
rechnet die Werte, die an die anderen Neu¬ 
rone, zu welchen eine Verbindung von j be¬ 
steht, weitergegeben werden. Formaler: 

Definition 3.7 (Ausgabefunktion). Sei j 
Neuron. Die Ausgabefunktion 

./out () — Oj (3.6) 

berechnet dann den Ausgabewert Oj des 
Neurons j aus seinem Aktivierungszustand 

a j. 

Auch die Ausgabefunktion ist i.d.R. global 
definiert. Oft ist diese Funktion die Identi¬ 
tät , d.h. es wird direkt die Aktivierung aj 
ausgegeben 4 : 

./'out.(c;) = üj . also Oj — aj (3.7) 

Solange nicht explizit anders angegeben, 
werden wir innerhalb dieser Arbeit die 
Identität als Ausgabefunktion verwen¬ 
den. 

3.2.8 Lernverfahren passen ein Netz 
auf unsere Bedürfnisse an 

Da wir uns diesem Thema später noch sehr 
ausführlich widmen werden und erst ein¬ 
mal die Grundsätze des Aufbaus Neurona¬ 
ler Netze kennen lernen möchten, sei hier 
nur kurz und allgemein definiert: 

4 Andere Definitionen der Ausgabe können sinnreich 
sein, wenn der Wertebereich einer Aktivierungs¬ 
funktion nicht ausreichend ist. 


Definition 3.8 (Lernregel, allgemein). 
Ein Lernverfahren ist ein Algorithmus, 
der das Neuronale Netz verändert und ihm 
so beibringt, für eine vorgegebene Eingabe 
eine gewünschte Ausgabe zu produzieren. 

3.3 Verschiedene 
Netztopologien 

Nachdem wir nun den Aufbau der Bestand¬ 
teile Neuronaler Netze kennengelernt ha¬ 
ben, möchte ich einen Überblick über die 
gängigen Topologien (= Bauarten) von 
Neuronalen Netzen geben - also aus den 
Bausteinen Netze bauen. Jede beschriebe¬ 
ne Topologie wird sowohl mit Abbildung 
als auch durch seine Hinton-Darstellung il¬ 
lustriert, damit der Leser sofort die Cha¬ 
rakteristika sehen und bei der Betrach¬ 
tung anderer Netze anwenden kann. 

Die gepunktet eingezeichneten Gewichte 
werden in der Hinton-Darstellung als hell¬ 
graue Kästchen dargestellt, die durchge¬ 
zogenen als dunkelgraue. Die der Über¬ 
sichtlichkeit halber hinzugefügten Input- 
und Outputpfeile sind in der Hinton- 
Darstellung nicht zu finden. Um zu ver¬ 
deutlichen, dass die Verbindungen von den 
Zeilenneuronen zu den Spaltenneuronen 
gehen, ist in der oberen linken Zelle der 
kleine Pfeil f* eingefügt. 

SNIPE: Snipe ist dafür ausgelegt, ver¬ 
schiedenste Netztopologien realisieren zu 
können. Hierfür unterscheidet Snipe ver¬ 
schiedene Synapsenklassen (abhängig von 
Synapsenstart und -Ziel), die in einer 
NeuralNetworkDescriptor-Instanz für die 
davon ab hängenden Netze nach Belieben 
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Netz in 
Schichten 


mittels der setAllowed-Methoden erlaubt 
oder verboten werden können. 


3.3.1 FeedForward-Netze bestehen 
aus Schichten und 
Verbindungen zur jeweils 
nächsten Schicht 


FeedForward-Netze (Abb. 3.3 auf der 


rechten Seite) sind in dieser Arbeit die 


Netze, die wir zunächst erforschen wer¬ 
den (wenn auch später andere Topo¬ 
logien verwendet werden). Die Neuro¬ 
ne sind in Schichten eingeteilt: Eine 
Eingabe Schicht , n versteckte Verar¬ 
beitung sschichten (unsichtbar von au¬ 
ßen, weswegen man die Neurone darin 
auch als versteckt bezeichnet) und ei¬ 
ne Ausgabeschicht. Die Verbindungen 
von einem jeden Neuron dürfen bei ei¬ 
nem FeedForward-Netz ausschließlich ein 
Neuron der nächsten Schicht (in Rich¬ 
tung Ausgabeschicht) treffen. Die für 
ein FeedForward-Netz zugelassenen Ver¬ 


bindungen sind in Abb. 3.3 auf der rech 


|ten Seite] durchgezogen dargestellt. Sehr 
oft begegnet man FeedForward-Netzen, 
in denen jedes Neuron i eine Verbin¬ 
dung zu allen Neuronen der nachfolgenden 
Schicht besitzt (diese Schichten nennt man 
dann untereinander vollverknüpft) . Out¬ 
putneurone werden zur Vermeidung von 
Benennungskonflikten oft mit D bezeich¬ 
net. 


Definition 3.9 (FeedForward-Netz). Ein 


FeedForward-Netz (Abb. 3.3 auf der rech¬ 


ten Seite) besitzt klar abgetrennte Schich¬ 


ten von Neuronen: Eine Eingabeschicht, ei¬ 


ne Ausgabeschicht und beliebig viele in¬ 
nere, von außen nicht sichtbare Verarbei¬ 
tungsschichten (auch versteckte Schichten 
bzw. hidden layer genannt). Verbindungen 
sind nur zu Neuronen der jeweils nächsten 
Schicht erlaubt. 


3.3.1.1 ShortCut-Verbindungen 
überspringen Schichten 


Manche FeedForward-Netze gestatten sog. 

ShortCut-Connections (Abb. 3.4 auf 


der rechten Seite): Verbindungen, wel¬ 


che eine oder mehrere Ebenen übersprin¬ 
gen. Auch diese Verbindungen dürfen aus¬ 
schließlich in Richtung der Ausgabeschicht 
zeigen. 


Definition 3.10 (FeedForward-Netz 
mit ShortCut-Connections). Wie 
beim FeedForward-Netz, doch dürfen 
Verbindungen nicht nur die nächste, 
sondern auch jede andere nachfolgende 
Schicht zum Ziel haben. 


3.3.2 Rückgekoppelte Netze 
beeinflussen sich selbst 

Man spricht von einer Rückkopplung 
oder Rekurrenz , wenn ein Neuron sich 
auf irgendeine Weise oder durch irgend¬ 
einen Verbindungsweg selbst beeinflussen 
kann. Bei rückgekoppelten oder rekurren¬ 
ten Netzen sind nicht immer Input- oder 
Outputneurone explizit definiert, daher 
lasse ich die diesbezügliche Beschriftung in 
den Abbildungen weg und nummeriere die 
Neurone nur durch. 


ShortCuts 

überspringen 

Schichten 
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3.3 Verschiedene Netztopologien 



Abbildung 3.3: Ein FeedForward-Netz mit drei 
Schichten: Zwei Inputneurone, drei versteckte 
Neurone und zwei Outputneurone. Charakteris¬ 
tisch in der Hinton-Darstellung für vollverknüpf¬ 
te FeedForward-Netze: Die Blockbildung über 
der Diagonalen. 


Abbildung 3.4: Ein FeedForward-Netz 

mit durchgezogen dargestellten Shortcut- 
Connections. Rechts der FeedForward-Blöcke 
sind in der Hinton-Darstellung neue Verbindun¬ 
gen hinzugekommen. 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


43 
























Kapitel 3 Bausteine künstlicher Neuronaler Netze (wichtige Grundlagen) 


dkriesel.com 


3.3.2.1 Direkte Rückkopplungen 
starten und enden an 
demselben Neuron 


Neurone 
beeinflussen 
sich selbst 


Manche Netze lassen Verbindungen von 
einem Neuron zu sich selbst zu, was als 
direkte Rückkopplung (manchmal auch 
Selbstrückkopplung oder Selbstrekurrenz ) 
bezeichnet wird (Abb. [dTüj ) . Neurone hem¬ 
men und stärken sich so selbst, um an ihre 
Aktivierungsgrenzen zu gelangen. 

Definition 3.11 (Direkte Rückkopplung). 

Wir erweitern wieder das FeedForward- 
Netz, diesmal um Verbindungen von ei¬ 
nem Neuron j zu sich selbst, deren Ge¬ 
wichte dann den Namen wjj tragen. An¬ 
ders ausgedrückt darf die Diagonale der 
Gewichtsmatrix W ungleich 0 sein. 


3.3.2.2 Indirekte Rückkopplungen 

beeinflussen ihr Startneuron 
nur über Umwege 


Sind Verbindungen in Richtung der Einga¬ 
beschicht gestattet, so nennt man diese in¬ 
direkte Rückkopplungen. Ein Neuron j 
kann sich dann durch Umwege nach vorne 
selbst beeinflussen, indem es z.B. die Neu¬ 
rone der nächsten Schicht beeinflusst und 
die Neurone dieser nächsten Schicht wie¬ 
der j (Abb. 3.6 auf der rechten Seite). 


Definition 3.12 (Indirekte Rückkopp¬ 
lung). Wieder vom FeedForward-Netz 
ausgehend, sind diesmal zusätzlich Ver¬ 
bindungen von Neuronen zur vorherigen 
Schicht erlaubt, also dürfen die Werte im 
Bereich unter der Diagonalen von W un¬ 
gleich 0 sein. 
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Abbildung 3.5: Ein FeedForward-ähnliches 
Netz mit direkt rückgekoppelten Neuronen. 
Die direkten Rückkopplungen sind durch¬ 
gezogen dargestellt. Sie entsprechen in der 
Hinton-Darstellung genau der Diagonalen der 
Matrix. 
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3.3 Verschiedene Netztopologien 


3.3.2.3 Laterale Rückkopplungen 

verbinden Neuronen in ein- und 
derselben Ebene 
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Abbildung 3.6: Ein FeedForward-ähnliches 
Netz mit indirekt rückgekoppelten Neuronen. 
Die indirekten Rückkopplungen sind durchge¬ 
zogen dargestellt. Wie wir sehen, können hier 
auch Verbindungen zu vorherigen Schichten 
existieren. Die zu den FeedForward-Blöcken 
symmetrischen Felder in der Hinton-Darstellung 
sind nun belegt. 


Verbindungen von Neuronen innerhalb ei¬ 
ner Ebene heißen laterale Rückkopp¬ 


lungen (Abb. 3.7 auf der folgenden Sei 


te). Oft hemmt hier jedes Neuron die an¬ 


deren Neurone der Ebene und verstärkt 
sich selbst, es wird dann nur das stärks¬ 
te Neuron aktiv (Winner-Takes-All- 
Schema). 


Definition 3.13 (Laterale Rückkopp¬ 
lung). Ein lateral rückgekoppeltes Netz 
erlaubt Verbindungen innerhalb einer 
Schicht. 


3.3.3 Vollständig verbundene Netze 
erlauben jede denkbare 
Verbindung 


Vollständig verbundene Netze erlauben 
Verbindungen zwischen allen Neuronen, 
außer direkten Rückkopplungen; außer¬ 
dem müssen die Verbindungen symme¬ 


trisch sein (Abb. 3.8 auf der folgenden Sei 


te). Ein populäres Beispiel sind die selbst¬ 


organisierenden Karten, welche in Kap. [TÜ] 
vorgestellt werden. 


Definition 3.14 (Vollständiger Verbund). 

Hier darf prinzipiell jedes Neuron zu je¬ 
dem eine Verbindung unterhalten - aller¬ 
dings kann so auch jedes Neuron Eingabe¬ 
neuron werden, weshalb direkte Rückkopp¬ 
lungen i.d.R. hier nicht angewandt wer¬ 
den, und es keine klar definierten Schich¬ 
ten mehr gibt. Die Matrix W darf also 
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Abbildung 3.8: Ein vollständig verbundenes 
Netz mit symmetrischen Verbindungen, ohne di¬ 
rekte Rückkopplungen. Nur die Diagonale in der 
Hinton-Darstellung bleibt frei. 


Abbildung 3.7: Ein FeedForward-ähnliches 
Netz mit lateral rückgekoppelten Neuronen. Die 
direkten Rückkopplungen sind durchgezogen 
dargestellt. Rückkopplungen existieren hier nur 
ebenenweise. In der Hinton-Darstellung sam¬ 
meln sich um die Diagonale gefüllte Quadrate 
in Höhe der FeedForward-Blöcke an, die jedoch 
die Diagonale frei lassen. 


überall ungleich 0 sein, außer auf ihrer Dia¬ 
gonalen. 

3.4 Das Biasneuron ist ein 
technischer Trick, 
Schwellwerte als 
Verbindungsgewichte zu 
behandeln 


Wir wissen mittlerweile, dass Neurone in 
vielen Netzparadigmen einen Schwellen¬ 
wert besitzen, der angibt, ab wann ein 
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3.4 Das Biasneuron 


Neuron aktiv ist. Der Schwellenwert ist al¬ 
so ein Parameter der Aktivierungsfunkti¬ 
on eines Neurons. Dies ist zwar biologisch 
am plausibelsten, es ist jedoch kompliziert, 
zwecks Training des Schwellenwerts zur 
Laufzeit auf die Aktivierungsfunktion zu¬ 
zugreifen. 

Man kann allerdings Schwellenwerte 
Q jn für Neurone ji, j 2 , • • •, jn 
auch als Gewicht einer Verbindung von 
einem immer feuernden Neuron reali¬ 
sieren: Zu diesem Zweck integriert man 
ein zusätzliches, immer 1 ausgebendes 
Biasneuron in das Netz, verbindet es 
mit den Neuronen j \, , j n und gibt 

diesen neuen Verbindungen die Gewichte 
also die negativen 

Schwellenwerte. 


Aktivierungsfunktion in die Propagie¬ 
rungsfunktion. Noch kürzer: Der Schwel¬ 
lenwert wird jetzt einfach von der Netzein¬ 
gabe subtrahiert, ist also Teil der Netzein¬ 
gabe. Formaler: 

Seien j i , . 72 , • • ■, j n Neurone mit 
Schwellenwerten Qj 1 ,..., 0 Jn . Durch 
Einsetzen eines immer 1 ausgebenden 
Biasneurons, Erstellen von Verbindungen 
von diesem zu den Neuronen ji,j2, ■ ■ ■ ,jn 
und Gewichtung dieser Verbindungen 

U’BIAS ji , ■ • ■, W B IASj„ m it ~®ji j ■ ■ • > — 
kann man 0 j, = ... = 0 Jn = 0 setzen 
und erhält ein äquivalentes Neuronales 
Netz, bei dem sämtliche Schwellenwerte 
durch Verbindungsgewichte realisiert 
sind. 


Biasneuron 
ersetzt 
Schwel lenw. 
durch 
Gewichte 


Definition 3.15. Ein Biasneuron ist 

ein Neuron, welches immer 1 ausgibt und 
als 



dargestellt wird. Es wird verwendet, um 
Schwellwerte als Gewichte zu repräsentie¬ 
ren, so dass beliebige Lernverfahren sie 
direkt mitsamt den Gewichten trainieren 
können. 


Den Schwellenwert der Neurone 
j 1 , . 72 ,..., j n setzt man dann auf 0. Nun 
sind die Schwellenwerte als Verbindungs¬ 
gewichte implementiert (Abb. 3.9 auf 
der folgenden Seite) und können beim 


Training von Verbindungsgewichten 
direkt mittrainiert werden, was uns das 
Lernen erheblich vereinfacht. 


Anders ausgedrückt: Wir verschieben die 
Einrechnung des Schwellenwerts von der 


Der Vorteil des Biasneurons ist ohne Zwei¬ 
fel die vielfach einfachere Implementie¬ 
rung des Netzes. Als Nachteil sei genannt, 
dass die Darstellung des Netzes schon bei 
nur wenigen Neuronen recht unansehnlich 
wird, von einer großen Neuronenanzahl 
ganz zu schweigen. Übrigens wird ein Bias¬ 
neuron auch oft On-Neuron genannt. 

Wir wollen mit dem Biasneuron so verfah¬ 
ren, dass es ab hier der Übersichtlichkeit 
halber nicht mehr mit ab gebildet wird, wir 
aber wissen, dass es so etwas gibt und dass 
man die Schwellenwerte damit einfach als 
Gewichte behandeln kann. 

SNIPE: Auch in Snipe wurde anstatt 

Schwellwerten ein Biasneuron implemen¬ 
tiert, es trägt den Index 0. 
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Abbildung 3.9: Zwei äquivalente Neuronale Netze, links eins ohne, rechts eins mit Biasneuron. Die 
Neuronenschwellenwerte stehen in den Neuronen, Verbindungsgewichte an den Verbindungen. Der 
Übersichtlichkeit zuliebe habe ich Gewichte der schon vorhandenen (rechts gepunktet dargestellten) 
Verbindungen nicht extra aufgeschrieben. 


3.5 Darstellung von Neuronen 




Wir haben oben bereits gesehen, dass man 
in Neuronen ihren Namen oder aber ihren 
Schwellenwert schreiben kann. Eine weite¬ 
re sinnvolle Darstellungsmethode, welche 
wir auch in der weiteren Arbeit mehrfach 
anwenden werden, ist, Neurone nach ihrer 
Datenverarbeitungsart darzustellen. Eini¬ 
ge Beispiele ohne weitere Erläuterungen 
Abb. |3.10| gegeben - erläutert 


seien m 


werden die Neuronenarten, sobald sie ge¬ 
braucht werden. 



Abbildung 3.10: Verschiedene Neuronenarten, 
denen wir im Text noch begegnen werden. 


3.6 Es ist nicht egal, in 
welcher Reihenfolge 
Neuronenaktivierungen 
berechnet werden 


Für ein Neuronales Netz ist es von großer 
Bedeutung, in welcher Reihenfolge die 
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3.6 Aktivierungsreihenfolgen 


Biologisch 

plausibel 


einzelnen Neurone ihre Eingaben empfan¬ 
gen, verarbeiten, und Ergebnisse ausgeben. 
Hierbei werden zwei Modellklassen unter¬ 
schieden: 


3.6.1 Synchrone Aktivierung 

Alle Neurone ändern ihre Werte syn¬ 
chron, berechnen also simultan Netzein¬ 
gaben, Aktivierung und Ausgabe und 
geben diese weiter. Synchrone Aktivie¬ 
rung kommt dem biologischen Vorbild am 
nächsten, macht aber - wenn sie in Hard¬ 
ware implementiert werden soll - nur auf 
bestimmten Parallelrechnern Sinn und spe¬ 
ziell keinen Sinn für FeedForward-Netze. 
Diese Variante ist die allgemeinste und 
kann mit Netzen beliebiger Topologie sinn¬ 
voll angewandt werden. 

Definition 3.16 (Synchrone Aktivie¬ 
rung). Alle Neurone eines Netzes berech¬ 
nen gleichzeitig Netzeingaben mittels Pro¬ 
pagierungsfunktion, Aktivierung mittels 
Aktivierungsfunktion und Ausgabe mit¬ 
tels Ausgabefunktion. Hiernach ist der Ak¬ 
tivierungszyklus abgeschlossen. 

SIMIPE: Softwaretechnisch würde man die¬ 
se sehr allgemeine Aktivierungsreihenfol¬ 
ge realisieren, indem man in jedem neuen 
Zeitschrift zunächst alle Netzeingaben aus 
den existierenden Aktivierungen berechnet, 
zwischenspeichert, und anschließend aus 
den Netzeingaben alle Aktivierungen. Und 
so ist das auch genau das, was in Snipe 
passiert, denn Snipe muss ja beliebige To¬ 
pologien realisieren können. 


3.6.2 Asynchrone Aktivierung 

Hier ändern die Neurone ihre Werte nicht 
simultan, sondern zu verschiedenen Zeit¬ 
punkten. Hierfür gibt es verschiedene Ord¬ 
nungen, von denen ich ausgewählte vor stel¬ 
le: 


3.6.2.1 Zufällige Ordnung 

Definition 3.17 (Zufällige Aktivierungs¬ 
ordnung). Bei der zufälligen Aktivie¬ 
rungsordnung wird jeweils ein Neuron i 
zufällig gewählt und dessen neti, a* und 
Oi aktualisiert. Bei n vielen Neuronen ist 
ein Zyklus die n-malige Durchführung die¬ 
ses Schrittes. Offensichtlich werden man¬ 
che Neurone pro Zyklus mehrfach aktuali¬ 
siert, andere hingegen gar nicht. 

Es ist klar, dass diese Aktivierungsord¬ 
nung nicht immer sinnreich ist. 


3.6.2.2 Zufällige Permutation 

Bei der Zufälligen Permutation wird 
pro Zyklus jedes Neuron genau einmal be¬ 
rücksichtigt, das Ganze allerdings in zufäl¬ 
liger Reihenfolge. 

Definition 3.18 (Zufällige Permutation). 
Zunächst wird eine Permutation der Neu¬ 
rone zufällig berechnet, welche die Aktivie¬ 
rungsreihenfolge festlegt. In dieser Reihen¬ 
folge werden die Neurone dann sukzessive 
abgearbeitet. 


Besser imple¬ 
mentierbar 
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Oft sinnvoll 


Auch diese Aktivierungsreihenfolge wird 
nicht oft eingesetzt, weil erstens die Rei¬ 
henfolge im Allgemeinen nicht sinnvoll ist 
und es zweitens sehr zeit- bzw. rechenauf¬ 
wändig ist, bei jedem Zyklus eine neue 
Permutation zu berechnen. Wir werden in 
Form der Hop fielet-Netze (Kap. [8]) zwar ei¬ 
ne Topologie kennenlernen, welche nomi¬ 
nell eine zufällige oder zufällig permutierte 
Aktivierungsreihenfolge besitzt - die prak¬ 
tische Umsetzung sieht dort allerdings so 
aus, dass man aus o.g. Gründen eine feste 
Reihenfolge verwendet. 

Bei allen Ordnungen können wahlweise 
entweder die alten Aktivierungen der Neu¬ 
rone des Zeitpunkts t als Ausgangspunkt 
genommen werden, oder aber, wo vorhan¬ 
den, bereits die Aktivierungen des Zeit¬ 
punkts t + 1, für den wir eigentlich gerade 
die Aktivierungen errechnen. 

3.6.2.3 Topologische Ordnung 

Definition 3.19 (Topologische Aktivie¬ 
rung). Bei der Topologischen Aktivie¬ 
rung s Ordnung werden die Neurone pro 
Zyklus in fester Ordnung aktualisiert, wel¬ 
che durch die Netztopologie definiert ist. 

Dieses Verfahren kommt nur für zyklen¬ 
freie, also rückkopplungsfreie Netze in Fra¬ 
ge, da man sonst keine Aktivierungsreihen¬ 
folge finden kann. In FeedForward-Netzen 
(für die das Verfahren äußerst günstig ist) 
würden so erst die Eingabeneurone aktuali¬ 
siert, danach die inneren Neurone, als letz¬ 
tes die Ausgabeneurone. Dies spart eine 
Menge Zeit: Bei synchroner Aktivierung 


würde man für ein Feed-Forward-Netz mit 
drei Schichten beispielsweise drei vollstän¬ 
dige Propagierungszyklen benötigen, da¬ 
mit eine Eingabe auch Auswirkungen auf 
die Ausgabeneurone haben kann. Mittels 
topologischer Aktivierung ist dies mit nur 
einem Propagierungszyklus geschafft. Al¬ 
lerdings lässt sich nicht für jede Netzto¬ 
pologie eine sinnvolle Ordnung finden, um 
auf diese Weise Zeit zu sparen. 

SIMIPE: Wenn der Leser mit Snipe 
FeedForward-Netze realisieren und auf die¬ 
se Weise Rechenzeit einsparen möchte, so 
kann er in der Dokumentation zur Klasse 
NeuralNetworkDescriptor nach der Funk¬ 
tion Fastprop suchen und diese aktivie¬ 
ren. Während der Propagierung werden 
die Neurone dann nacheinander durchge¬ 
gangen und für jedes Neuron Netzeingabe 
und Aktivierung auf einmal berechnet. Da 
die Neurone von Eingabeschicht über die 
verschiedenen Schichten bis hin zur Ausga¬ 
beschicht durchgehend aufsteigend numme¬ 
riert sind, entspricht diese Propagierungs¬ 
variante der topologisch sinnvollen Ord¬ 
nung für FeedForward-Netze. 

3.6.2.4 Feste Aktivierungsordnungen in 
der Implementierung 

Offensichtlich kann man sich auch feste 
Aktivierungsordnungen definieren. Es 
ist daher eine beliebte Methode bei der 
Implementierung von z.B. FeedForward- 
Netzen, die Aktivierungsreihenfolge ein¬ 
mal nach der Topologie zu ermitteln und 
zur Laufzeit diese ermittelte Reihenfolge 
ohne weitere Prüfung weiter zu verwenden. 
Dies ist jedoch bei Netzen, die ihre Topo¬ 
logie verändern können, nicht unbedingt 
sinnvoll. 
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3.7 Ein- und Ausgabe von Daten 


3.7 Kommunikation mit der 
Außenwelt: Ein- und 
Ausgabe von Daten in 
und von Neuronalen 
Netzen 

Zuletzt sei noch betrachtet, dass in vie¬ 
le Arten von Neuronalen Netzen natürlich 
auch Daten eingegeben werden können. 
Diese werden dann verarbeitet und kön¬ 
nen eine Ausgabe hervorrufen. Betrachten 
wir beispielsweise das FeedForward-Netz 
aus Abb. 13.3 auf Seite 43l Es hat zwei 
Eingabe- und zwei Ausgabeneurone, also 
auch zwei numerische Eingaben x\, xo und 
Ausgaben 2/1 , 2/2 - Diese Schreibweise wird 
natürlich für Netze mit vielen Ein- und 
Ausgabeneuronen mühselig - insofern ma¬ 
chen wir es uns einfach und fassen die 
Ein- und Ausgabekomponenten für n Ein- 
bzw. Ausgabeneurone in den Vektoren x = 
(x 1 ,x 2 , ■ ■ ■ ,x n ) und y = (y 1 , y 2 , ..., y n ) zu¬ 
sammen. 

Definition 3.20 (Eingabevektor). Ein 
Netz mit n vielen Eingabeneuronen be¬ 
nötigt n Eingaben x\, X 2 , ■ ■ ■, x n . Wir 
fassen diese als Eingabevektor x = 
(xi, X 2 , ■ • •, x n ) auf. Die Eingabedimen¬ 
sion bezeichnen wir also mit n. Daten 
werden in ein Neuronales Netz eingegeben, 
indem die Komponenten des Eingabevek¬ 
tors einfach bei den Eingabeneuronen als 
Netzeingabe verwendet werden. 

Definition 3.21 (Ausgabevektor). Ein 
Netz mit m vielen Ausgabeneuronen 
liefert m Ausgaben y \, ij 2 ,,y rn . Wir 
fassen diese als Ausgabevektor y = 


(yi, y 2 , ■ ■ ■, y m ) auf. Die Ausgabedimen¬ 
sion bezeichnen wir also mit m. Daten 
werden von einem Neuronalen Netz ausge¬ 
geben, indem die Komponenten des Aus¬ 
gabevektors von den Ausgabewerten der 
Ausgabeneurone übernommen werden. 

SNIPE: Um Daten durch eine 

NeuralNetwork-Instanz zu propagie¬ 
ren, wird die propagate-Methode genutzt. 

Sie nimmt den Eingabevektor als Array 
von Doubles entgegen und liefert einen 
ebensolchen Ausgabevektor. 

Wir haben nun die Grundbausteine der 
Neuronalen Netze definiert und näher be¬ 
trachtet - ohne jedoch ein Netz einmal in 
Aktion zu sehen. Wir wollen mit dieser 
rein erklärenden Ansicht zunächst etwas 
weiter fortfahren und ganz allgemein be¬ 
schreiben, wie ein Neuronales Netz lernen 
könnte. 

Übungsaufgaben 

Aufgabe 5. Ist es (Ihrer Meinung nach) 
sinnvoll, bei schichtenbasierten Netzen wie 
z.B. FeedForward-Netzen ein Biasneuron 
pro Schicht einzufügen? Erörtern Sie dies 
in Bezug auf die Darstellung und die Im¬ 
plementierung des Netzes. Ändert sich et¬ 
was am Ergebnis des Netzes? 

Aufgabe 6. Zeigen Sie sowohl für die Fer- 
mifunktion f(x), als auch für den Tangens 
Hyperbolicus tanh(x), dass sich die Ablei¬ 
tungen der Funktionen durch die Funktion 
selbst ausdrücken lassen, dass also die bei¬ 
den Behauptungen 
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1 - f{x) = f(x) • (1 - f(x)) und 
2. tanh'(x) = 1 — tanh 2 (x) 
gelten. 
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Kapitel 4 

Grundlagen zu Lernprozess und 
Trainingsbeispielen 


Ansätze und Gedanken, auf welche Arten Maschinen etwas beizubringen ist. 
Korrigiert man Neuronale Netze? Bestärkt man sie nur? Lässt man sie gar 
ganz alleine ohne Hilfe lernen? Gedanken darüber, was wir während des 
Lernvorganges überhaupt verändern möchten, wie wir es verändern, über 
Fehlermessung und wann wir mit dem Lernen fertig sind. 


Wie schon beschrieben, besteht das in¬ 
teressanteste Merkmal Neuronaler Netze 
in ihrer Fähigkeit, sich Problemen durch 
Training vertraut zu machen und, nach 
ausreichendem Training, auch bis dato un¬ 
bekannte Probleme derselben Klasse lösen 
zu können, was man als Generalisierung 
bezeichnet. Bevor wir konkrete Lernver¬ 
fahren kennenlernen, möchte ich in die¬ 
sem Kapitel zunächst grundsätzliche Ge¬ 
danken zum Lernprozess anregen. 

4.1 Es gibt verschiedene 
Paradigmen zu lernen 

Lernen ist ein weiter Begriff. Es bedeutet, 
das ein System sich in irgendeiner Form 
verändert, um sich z.B. an Veränderungen 
in seiner Umwelt anzupassen. Grundsätz¬ 


lich verändert sich ein Neuronales Netz 
mit der Veränderung seiner Bestandteile, 
die wir eben kennengelernt haben. Theore¬ 
tisch könnte ein Neuronales Netz also ler¬ 
nen, indem es 

1. neue Verbindungen entwickelt, 

2. vorhandene Verbindungen löscht, 

3. Verbindungsgewichte verändert, 

4. Schwellenwerte von Neuronen ändert, 

5. eine oder mehrere der drei Neu¬ 
ronenfunktionen (wir erinnern uns: 
Aktivierungs-, Propagierungs- und 
Ausgabefunktion) abwandelt, 

6 . neue Neurone entwickelt 

7. oder aber vorhandene Neurone löscht 
(und damit natürlich Verbindungen). 
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Wir behandeln die Gewichtsveränderung 
zunächst als die gängigste. Weiterhin kann 
das Löschen von Verbindungen hierdurch 
realisiert werden, dass man zusätzlich 
noch dafür Sorge trägt, dass eine zum Lö¬ 
schen auf 0 gesetzte Verbindung nicht wei¬ 
ter trainiert wird. Man kann weiterhin Ver¬ 
bindungen entwickeln durch das Setzen ei¬ 
ner nicht vorhandenen Verbindung (wel¬ 
che ja in der Verbindungsmatrix den Wert 
0 innehat) auf einen von 0 verschiedenen 
Wert. Für die Modifikation der Schwellen¬ 
werte verweise ich auf die Möglichkeit, die¬ 
se als Gewichte zu implementieren (Ab¬ 
schnitt 3.4). Wir erschlagen also gleich vier 
der obigen Punkte durch reines Training 
von Verbindungsgewichten. 


Die Veränderung von Neuronenfunktionen 
ist schwierig zu implementieren, nicht sehr 
intuitiv und auch nicht wirklich biologisch 
motiviert. Sie ist daher nicht verbreitet 
und wird hier zunächst nicht behandelt 
werden. Die Möglichkeiten, Neurone zu 
entwickeln oder zu löschen, liefern wäh¬ 
rend des Trainings eines Neuronalen Net¬ 
zes nicht nur gut eingestellte Gewichte, 
sondern optimieren auch noch die Netzto- 
pologie - sie gewinnen daher immer mehr 
an Interesse und werden oft mit evolutio¬ 
nären Verfahren realisiert. Da wir aber ein- 
sehen, dass wir einen Großteil der Lern¬ 
möglichkeiten bereits durch Gewichtsver¬ 
änderungen abdecken können, sind auch 
sie zunächst nicht Gegenstand dieser Ar¬ 
beit (es ist aber geplant, die Arbeit in die¬ 
se Richtung zu erweitern). 


lenwerten sowie das Hinzufügen und 
Entfernen von Verbindungen sowie gan¬ 
zen Neuronen. Methoden der Klasse 
NeuralNetworkDescriptor erlauben das 
Ändern der Aktivierungsfunktion pro 
Schicht. 


Wir lassen also unser Neuronales Netz ler¬ 
nen, indem wir es die Verbindungsgewich¬ 
te modifizieren lassen nach Regeln, die wir 
in Algorithmen fassen können - ein Lern¬ 
verfahren ist also immer ein Algorith¬ 
mus, den wir einfach mithilfe einer Pro¬ 
grammiersprache implementieren können. 
Ich werde später voraussetzen, dass wir de¬ 
finieren können, was eine erwünschte, ler¬ 
nenswerte Ausgabe ist (und an dieser stel¬ 
le auch die Trainingsbeispiele formal defi¬ 
nieren) und dass wir eine Trainingsmenge 
an Lernbeispielen besitzen. Eine Trainings¬ 
menge sei folgendermaßen definiert: 

Definition 4.1 (Trainingsmenge). Als 
Trainingsmenge P bezeichnen wir eine 
Menge von Trainingsbeispielen, welche wir 
zum Training unseres Neuronales Netzes 
verwenden. 

Ich stelle nun die drei wesentlichen Pa¬ 
radigmen des Lernens anhand der Un¬ 
terschiede in der Beschaffenheit der Trai¬ 
ningsmenge vor. 


4.1.1 Unüberwachtes Lernen gibt 

dem Netz nur Eingabemuster, 
aber keine Lernhilfen 


SNIPE: Methoden der Klasse 

NeuralNetwork erlauben das Ändern 
von Verbindungsgewichten und Schwel- 


Unüberwachtes Lernen (engl, unsu- 
pervised learning ) ist die biologisch 
plausibelste Methode, die aber nicht für 


Lernen 

durch 

Gewichts¬ 

änderung 


p 


Netz lernt 
alleine 
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4.1 Paradigmen des Lernens 


Netz erhält 
Belohnung oder 
Strafe 


alle Fragestellungen geeignet ist. Gegeben 
sind nur Eingabemuster; das Netz ver¬ 
sucht, ähnliche Muster zu identifizieren 
und in ähnliche Kategorien zu klassifizie¬ 
ren. 

Definition 4.2 (Unüberwachtes Lernen). 
Die Trainingsmenge besteht nur aus Ein¬ 
gabemustern , das Netz versucht selbst, 
Ähnlichkeiten herauszufinden und Muster¬ 
klassen zu bilden. 

Als bekanntes Beispiel sei wieder auf die 
selbstorganisierenden Karten von Koho- 
nen (Kap. |IÖ|) verwiesen. 


4.1.2 Bestärkendes Lernen gibt 
dem Netz Feedback, ob es 
sich gut oder schlecht verhält 

Beim bestärkenden Lernen (engl, re¬ 
inforcement learning) wird dem Netz 
nach erfolgtem Durchlauf immerhin ein 
Wahrheits- oder reeller Wert geliefert, der 
definiert, ob das Ergebnis richtig oder 
falsch ist. Intuitiv ist klar, dass dieses Ver¬ 
fahren für viele Anwendungen zielstrebi¬ 
ger funktionieren sollte als unüberwachtes 
Lernen, erhält das Netz doch konkrete An¬ 
haltspunkte zur Lösungsfindung. 

Definition 4.3 (Bestärkendes Lernen). 
Die Trainingsmenge besteht aus Eingabe¬ 
mustern. , nach erfolgtem Durchlauf wird 
dem Netz ein Wert zurückgegeben, ob das 
Ergebnis falsch oder richtig war, u.U. noch 
wie falsch oder richtig es war. 


4.1.3 Überwachtes Lernen hilft dem 
Netz mit Trainingsbeispielen 
und zugehörigen Lösungen 

Beim überwachten Lernen (engl, su- 
pervised learning) existiert eine Trai¬ 
ningsmenge von Eingabemustern sowie de¬ 
ren korrekte Ergebnisse in Form der genau¬ 
en Aktivierung sämtlicher Ausgabeneuro¬ 
ne. Für jedes in das Netz eingegebene 
Trainingsmuster kann so beispielsweise die 
Ausgabe direkt mit der korrekten Lösung 
verglichen werden und anhand der Diffe¬ 
renz die Netzgewichtungen geändert wer¬ 
den. Ziel ist eine Veränderung der Gewich¬ 
te dahingehend, dass das Netz nach dem 
Training nicht nur selbstständig Ein- und 
Ausgabemuster assoziieren, sondern bis da¬ 
to unbekannte, ähnliche Eingabemuster ei¬ 
nem plausiblen Ergebnis zuführen, also ge¬ 
neralisieren kann. 

Definition 4.4 (Überwachtes Lernen). 
Die Trainingsmenge besteht aus Eingabe¬ 
mustern mit jeweiliger korrekter Lösung, 
so dass dem Netz nach Ausgabe ein ge¬ 
nauer Fehlervektor 1 zurückgegeben wer¬ 
den kann. 

Dieses Lernverfahren ist biologisch nicht 
immer plausibel, aber exorbitant zielge¬ 
richteter als die anderen und daher sehr 
praktikabel. 

Wir möchten hier zunächst die überwach¬ 
ten Lernverfahren allgemein betrachten, 
welche sich innerhalb dieser Abeit zu¬ 
nächst an folgendes Schema halten: 

1 Den Begriff des Fehlervektors werden wir in Ab¬ 
schnitt |T2l noch definieren, wenn es an die mathe¬ 
matische Formalisierung des Lernens geht. 


Netz erhält 
korrekte Lö¬ 
sungen zu 
Beispielen 
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Lernschema 


Eingabe des Eingabemusters (Aktivie¬ 
rung der Eingabeneurone), 

Vorwärtspropagierung der Eingabe 
durch das Netz, Erzeugung der 
Ausgabe, 

Vergleich der Ausgabe mit der korrekten 
Ausgabe ( Teaching Input) , liefert Feh¬ 
lervektor (Differenzvektor), 

Verbesserungen des Netzes werden auf¬ 
bauend auf den Fehlervektor berech¬ 
net. 


in das Netz ein, kumuliert die Fehler auf, 
und lernt für alle Trainingsbeispiele gleich¬ 
zeitig. 

Definition 4.6 (Online-Lernen). Man 
lernt direkt durch den Fehler eines jeden 
Trainingsbeispiels. 

4.1.5 Fragen, über die man sich vor 
dem Lernen Gedanken 
machen sollte 


Anwendung der Verbesserung um die 

vorher berechneten Werte. 


4.1.4 Offline oder Online lernen? 


Zu beachten ist, dass das Lernen offline 
erfolgen kann (eine Menge von Trainings¬ 
beispielen wird präsentiert, danach werden 
die Gewichte verändert, der Gesamtfehler 
wird mit Hilfe einer Fehlerfunktion errech¬ 
net bzw. einfach aufkumuliert; näheres 


hierzu im Abschnitt 4.4) oder aber online 


(nach jedem präsentierten Beispiel werden 
die Gewichte verändert). Beides bietet Vor- 
und Nachteile, auf die wir bei den Lern¬ 
verfahren nötigenfalls eingehen werden. 
Offline-Trainingsverfahren werden auch 
Batch-Trainingsverfahren genannt, da 
ein Stapel Ergebnisse auf einmal kor¬ 
rigiert wird. Einen solchen Trainingsab¬ 
schnitt eines ganzen Stapels Trainingsbei¬ 
spiele samt der zugehörigen Veränderung 
der Gewichtswerte nennt man Epoche. 


Die Anwendung der Schemata setzt natür¬ 
lich voraus, dass man sich vorher über eini¬ 
ge Fragen Gedanken gemacht hat, die ich 
hier gewissermaßen als Checkliste einbrin- 
gen und im Laufe der Arbeit sukzessive 
beantworten möchte, soweit möglich: 

> Woher kommt die Lerneingabe und in 
welcher Form erhalten wir sie? 

> Auf welche Weise muss man die Ge¬ 
wichte modifizieren, so dass man mög¬ 
lichst schnell und sicher lernt? 

> Wie kann man objektiv messen, wie 
erfolgreich der Lernprozess ist? 

> Kann man ermitteln, welches das 
„beste“ Lernverfahren ist? 

> Kann man Vorhersagen, ob ein Lern¬ 
verfahren terminiert, ob es also nach 
endlicher Zeit einen optimalen Zu¬ 
stand erreicht oder z.B. zwischen ver¬ 
schiedenen Zuständen oszilliert? 


Definition 4.5 (Offline-Lernen). Man > Wie wird das Gelernte im Netz gespei- 
gibt mehrere Trainingsbeispiele auf einmal chert? 
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4.2 Trainingsmuster und Teaching Input 


► ► 

keine Patent¬ 
lösungen! 


Gewünschte 

Ausgabe 


> Kann man verhindern, dass neu 
gelernte Muster alte erlernte 
Assoziationen wieder zerstören 
(das sog. Stabilitäts-Plastizitäts- 
Dilemma )? 

Wir werden feststellen, dass alle diese Fra¬ 
gen nicht allgemein beantwortet werden 
können, sondern für jedes Lernverfahren 
und jede Topologie von Netzwerk neu dis¬ 
kutiert werden müssen. 

4.2 Trainingsmuster und 
Teaching Input 

Bevor wir unsere erste Lernregel kennen¬ 
lernen, muss der Teaching Input einge¬ 
führt werden. Im (hier vorliegenden) Falle 
des überwachten Lernens setzen wir vor¬ 
aus, dass eine Trainingsmenge aus Trai¬ 
ningsmustern und dazugehörigen richtigen 
Ausgabewerten vor liegt, die man nach er¬ 
folgtem Training an den Ausgabeneuronen 
sehen möchte. Diese Ausgabewerte wer¬ 
den, bis das Netz trainiert ist d.h. solange 
es falsche Ausgaben erzeugt, als sogenann¬ 
ter Teaching Input bezeichnet, und zwar 
für jedes Neuron einzeln. Für ein Neuron 
j mit fehlerhafter Ausgabe oj ist tj also 
die Bezeichnung für den Teaching Input, 
die richtige oder gewünschte Ausgabe zu 
einem Trainingsmuster p. 

Definition 4.7 (Trainingsmuster). 
Als Trainingsmuster bezeichnen wir 
einen Eingabevektor p mit Komponenten 
Pi , p- 2 ,..., p n , dessen gewünschte Ausgabe 
wir kennen. Indem wir das Trainings¬ 
muster in das Netz eingeben, erhalten 


wir eine Ausgabe, die wir mit dem 
Teaching Input, also der gewünschten 
Ausgabe vergleichen. Die Menge der 
Trainingsmuster nennen wir P. Sie 
enthält eine endliche Anzahl geordneter 
Paare ( p , t ) von Trainingsmustern mit 
zugehörigem gewünschten Output. 


Trainingsmuster heißen im englischen 
Pattern, weswegen sie hier mit p bezeich¬ 
net werden. Sie besitzen in der Literatur 
und in der weiteren Arbeit viele Synonyme, 
wie z.B. Pattern, Trainingsbeispiel, Mus¬ 
ter, usw. 

Definition 4.8 (Teaching Input). Sei j 
Ausgabeneuron. Der Teaching Input tj 
ist definiert als der gewünschte, korrekte 
Wert, den j nach der Eingabe eines be¬ 
stimmten Trainingsmusters ausgeben soll¬ 
te. Analog zum Vektor p kann man auch 
Teaching Inputs t\, t^, ■ ■ ■, t n der Neurone 
zu einem Vektor t zusammenfassen, t ist 
immer auf ein bestimmtes Trainingsmus¬ 
ter p bezogen und ist, wie oben schon ge¬ 
sagt, in der Menge P der Trainingsmuster 
enthalten. 

SNIPE: Für die Trainingsdaten relevante 
Klassen befinden sich im Paket training. 

Die Klasse TrainingSampleLesson ist zum 
Speichern von Trainingsmustern und Tea¬ 
ching Inputs gedacht und erlaubt auch ein¬ 
fache Vorverarbeitung der daten. 

Definition 4.9 (Fehlervektor). Für meh¬ 
rere Ausgabeneurone Di, D 2 ,..., D n wird 
die Differenz von Ausgabevektor und Tea- 


t 


Wunsch- 

Ausgabe 
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Wichtig! 


ching Input unter einem Trainingsbeispiel 
P 


als Fehlervektor , manchmal auch als 
Differenzvektor bezeichnet. Je nachdem, 
ob man offline oder online lernt, bezieht er 
sich auf ein bestimmtes Trainingsmuster, 
oder den auf bestimmte Weise normalisier¬ 
ten Fehler aus einer Menge von Trainings¬ 
mustern. 

Ich fasse noch einmal kurz zusammen, was 
wir jetzt an diesbezüglichen Vektoren defi¬ 
niert haben. Es gibt einen 

Eingabevektor x. der in das Neuronale 
Netz eingegeben werden kann. Das 
Neuronale Netz gibt dann je nach 
Netzart einen 

Ausgabevektor y aus. Das 

Trainingsbeispiel p ist im Grunde nichts 
weiter als ein Eingabevektor. Wir ver¬ 
wenden ihn nur zum Trainieren, weil 
wir den dazugehörigen 


zur Nomenklatur. Wir haben die Ausga¬ 
bewerte eines Neurons i mit Oi bezeich¬ 
net. Die Ausgabe eines Ausgabeneurons D 
heißt also oq. Wir nennen aber Ausgabe¬ 
werte des Netzes y q. Diese Netzausgaben 
sind natürlich auch nur Neuronenausga¬ 
ben, allerdings von Ausgabeneuronen. In¬ 
sofern gilt 

Un = oq. 

4.3 Umgang mit 

Trainingsbeispielen 

Wir haben gesehen, wie wir grundsätz¬ 
lich lernen können und welche Schritte 
wir dafür durchführen müssen. Nun soll¬ 
ten wir noch die Wahl der Trainingsdaten 
und die Lernkurve betrachten. Insbeson¬ 
dere interessant nach erfolgtem Lernvor¬ 
gang ist auch die Frage, ob das Netz viel¬ 
leicht nur auswendig gelernt hat - also 
unsere Trainingsbeispiele recht exakt der 
richtigen Ausgabe zuführen kann, jedoch 
für sämtliche anderen Probleme derselben 
Klasse falsche Antworten liefert. 


Teaching Input t kennen, der nichts ande¬ 
res als der gewünschte Ausgabevektor 
zu dem Trainingsbeispiel ist. Der 

Fehlervektor E p ist die Differenz zwischen 
Teaching Input t und tatsächlicher 
Ausgabe y. 

Was also x und y für den allgemeinen Be¬ 
trieb des Netzes sind, sind p und t für 
das Training des Netzes - und während 
des Trainings versuchen wir, y möglichst 
nah an t heranzubringen. Noch ein Tip 


Angenommen, wir wollen das Netz eine 
Abbildung R 2 —>• B 1 trainieren lassen, und 


die Trainingsbeispiele aus Abb. 4.1 auf der 


Irechten Seitei ansetzen: Dann könnte es 
sein, dass das Netz zum Schluss exakt die 
farblich markierten Bereiche um die Trai¬ 
ningsbeispiele herum mit der Ausgabe 1 
markiert (Abb. 4.1 oben), und ansonsten 
überall 0 ausgibt - es hat also genug Spei¬ 
cherkapazität gehabt, sich auf die sechs 
Trainingsbeispiele mit einer 1 als Ausga¬ 
be zu konzentrieren, was auf ein zu großes 
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4.3 Umgang mit Trainingsbeispielen 


i 


o 



Netz mit zu viel freier Speicherkapazität 
schließen lässt. 

Andersherum kann auch ein Netz zu wenig 
Kapazität haben (Abb. 4.1 unten) - die¬ 


se grobe Darstellung der Eingangsdaten 
entspricht auch nicht der guten Generali¬ 
sierung, die wir uns wünschen. Es gilt al¬ 


Abbildung 4.1: Veranschaulichung von Trai¬ 
ningsergebnissen derselben Trainingsmenge auf 
Netzen zu hoher (oben), richtiger (Mitte) oder 
zu niedriger Kapazität (unten). 


so, hier den Mittelweg zu finden (Abb. 4.1 
Mitte). 

4.3.1 Es ist nützlich, die Menge der 
Trainingsbeispiele zu 
unterteilen 

Ein Lösungsansatz für diese Probleme ist 
häufig, die Trainingsmenge zu teilen, und 
zwar 

D> in eine Trainingsmenge, mit der wir 
wirklich trainieren, 

D> und eine Testmenge, mit der wir un¬ 
sere Fortschritte testen 

- vorausgesetzt, wir haben ausreichend 
Trainingsbeispiele. Übliche Teilungsrela¬ 
tionen sind z.B. 70% für Trainingsdaten 
und 30% für Testdaten (zufällig gewählt). 
Wir können das Training beenden, wenn 
das Netz auf den Trainings- und Testda¬ 
ten gute Werte liefert. 

SNIPE: Die Methode splitLesson der 
Klasse TrainingSampleLesson erlaubt, ei¬ 
ne TrainingSampleLesson anhand eines 
wählbaren Verhältnisses entzwei zu tei¬ 
len. 

Doch Achtung: Wenn man aufgrund ei¬ 
nes schlechten Ergebnisses in den Test¬ 
daten an der Netzstruktur schraubt, bis 
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auch diese gute Ergebnisse liefern, läuft 
man schnell Gefahr, das Netz auch auf 
die Testdaten zuzuschneiden, so dass die¬ 
se zumindest indirekt auch ins Training 
eingehen, auch wenn sie nicht explizit 
für das Training genutzt werden. Abhilfe 
schafft ein dritter Validierungsdatensatz, 
der nach dem mutmaßlich erfolgreichen 
Training zum reinen Validieren benutzt 
wird. 

Offensichtlich enthalten wir dem Neurona¬ 
len Netz dadurch, dass wir weniger Mus¬ 
ter trainieren, Information vor und laufen 
damit Gefahr, dass es schlechter lernt. Es 
geht uns hier aber nicht um das 100% exak¬ 
te Reproduzieren gegebener Beispiele, son¬ 
dern um erfolgreiches Generalisieren und 
um Approximation einer ganzen Funktion 
- wofür es durchaus von Nutzen sein kann, 
weniger Informationen in das Netz zu trai¬ 
nieren. 

4.3.2 Reihenfolgen der 

Musterpräsentation 


SIMIPE: Die Methode shuff leSamples der 
Klasse TrainingSampleLesson permutiert 
die Lesson. 

4.4 Lernkurve und 
Fehlermessung 

Die Lernkurve beschreibt den zeitlichen 
Verlauf des Fehlers, der auf verschiedene 
Weisen ermittelt werden kann - die Moti¬ 
vation für die Erschaffung einer Lernkur¬ 
ve liegt darin, dass man mit ihr darstellen 
kann, ob das Netz Fortschritte macht oder 
nicht. Der Fehler sollte hierbei normiert 
sein, also ein Abstandsmaß zwischen richti¬ 
gem und aktuellem Output des Netzes dar¬ 
stellen. Beispielsweise können wir den mus¬ 
terspezifischen, quadratischen Fehler mit 
Vorfaktor nehmen, wie wir ihn für die Her¬ 
leitung von Backpropagation of Error ver¬ 
wenden werden (Seien D Outputneurone 
und O die Menge derselben.): 

Eit p = !E ~ ha) 2 ( 4 -l) 

z QeO 


Normieren 

zum 

Vergleichen 


Man kann auch verschiedene Strategien 
finden, in welcher Reihenfolge man Mus¬ 
ter präsentiert: Präsentiert man sie zufäl¬ 
lig, so gibt es keine Garantie, dass die Mus¬ 
ter gleichverteilt erlernt werden (dennoch 
ist dies die gängigste Methode). Immer 
dieselbe Musterreihenfolge hingegen provo¬ 
ziert z.B. bei rekurrenten Netzen (später 
mehr dazu) ein Auswendiglernen der Mus¬ 
ter. Abhilfe gegen beide Probleme würde 
hier eine zufällige Permutation schaffen, 
die aber - wie schon erwähnt - aufwändig 
zu berechnen ist. 


Definition 4.10 (Spezifischer Fehler). 
Der spezifische Fehler Err p wird über 
ein einziges Trainingsbeispiel, also online, 
gebildet. 

Weiter üblich sind der Root-Mean- 
Square (kurz: RMS) sowie der Euklidi¬ 
sche Abstand. 

Der Euklidische Abstand (Verallgemeine¬ 
rung des Satzes des Pythagoras) ist gut 
für niedere Dimensionen, wo wir uns sei¬ 
nen Nutzen auch noch bildlich vorstellen 
können. 


Err p 
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4.4 Lernkurve und Fehlermessung 


Err 


Definition 4.11 (Euklidischer Abstand). 
Der Euklidische Abstand zweier Vektoren 
t und y ist definiert zu 

Err p = ~ y ^) 2 ' ( 42 ) 

Y oeo 

Der Root-Mean-Square wird allgemein 

häufig verwendet, weil er auf grobe Aus¬ 
reißer mehr Rücksicht nimmt. 

Definition 4.12 (Root-Mean-Square). 
Der Root-Mean-Square zweier Vektoren t 
und y ist definiert zu 

Elr » = ( 4 - 3 ) 

Für Offline-Lernen ist auch der gesamte 
Fehler über eine Trainingsepoche von In¬ 
teresse und Nutzen: 

Err = ^ Err p (4.4) 

pSP 

Definition 4.13 (Gesamtfehler). Der 
Gesamtfehler Err wird über alle Trai¬ 
ningsbeispiele, also offline, gebildet. 


Analog können wir einen Gesamt-RMS 
und einen Gesamt-Euklidischen Abstand 
über eine ganze Epoche bilden. Natürlich 
sind auch andere Fehlermaße als das eukli¬ 
dische oder der RMS denkbar. Für weitere 
Varianten der Fehlermessungen kann ich 
nur raten, einen Blick in den Technical Re¬ 
port von Prechelt | Pre94 zu werfen - hier 
werden sowohl Fehlermaße als auch Bei- 
spielproblemstellungen intensiv diskutiert 
(darum kommt dazu später auch noch ein¬ 
mal eine ähnliche Anmerkung im Rahmen 
der Diskussion von Beispielproblemen). 


SIMIPE: In der Klasse ErrorMeasurement 
befinden sich verschiedene statische Me¬ 
thoden, welche verschiedene Verfahren der 
Fehlermessung implementieren. 


Abhängig von unserem Fehlermessverfah¬ 
ren sieht natürlich unsere Lernkurve auch 
anders aus. Eine ideale Lernkurve sieht 
aus wie eine negative Exponentialfunktion, 
ist also proportional zu e _t (Abb. 4.2 auf 


der folgenden Seite). Insofern stellt man 


die Lernkurve am anschaulichsten mit ei¬ 
ner logarithmischen Skala dar (Abb. |4.2| 
zweites Diagramm von unten) - bei dieser 
Skalierungskombination bedeutet eine ab¬ 
sinkende Gerade einen exponentiellen Ab¬ 
fall des Fehlers. 


Bei guter Arbeit des Netzes, einfachen Pro¬ 
blemstellungen und logarithmischer Dar¬ 
stellung von Err sieht man also bildlich 
gesprochen eine absinkende Gerade, die 
unten oft „Zacken“ bildet - hier stoßen 
wir an das Auflösungsvermögen unserer 64- 
Bit-Darstellung im Computer und haben 
tatsächlich das Optimum dessen erlernt, 
was unser Netz lernen kann. 


Typische Lernkurven können auch einige 
wenige flache Bereiche aufweisen, also Stu¬ 
fen beschreiben, dies ist kein Zeichen für 
einen schlecht funktionierenden Lernvor¬ 
gang. Wie wir weiterhin an der Abbildung 


4.2 sehen, kann man mit geeigneter Dar¬ 


stellung fast jede nur etwas sinkende Lern¬ 
kurve schön aussehen lassen - insofern soll¬ 
te man beim Lesen der Literatur etwas vor¬ 
sichtig sein. 
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Epoche 



Epoche 



Epoche 


Abbildung 4.2: Alle vier Abbildungen stellen dieselbe (idealisierte, da sehr glatte) Lernkurve dar. 
Achten Sie auf die wechselnden logarithmischen und linearen Skalierungen! Beachten Sie auch den 
kleinen „Ungenauigkeits-Zacken", sichtbar am Knick der Kurve im ersten und zweiten Diagramm 
von unten. 
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4.5 Gradientenbasierte Optimierungsverfahren 


Objektivität 


4.4.1 Wann hört man auf zu lernen? 

Nun ist die große Frage: Wann hört man 
auf zu lernen? Üblicherweise hört das Trai¬ 
ning auf, wenn derjenige, der vor dem trai¬ 
nierenden Computer sitzt, das „Gefühl“ 
hat, der Fehler wäre gering genug. In der 
Tat gibt es dafür wie so oft keine Patentlö¬ 
sung und so kann ich hier wieder nur Denk¬ 
ansätze geben, welche allerdings alle für 
eine objektivere Sicht auf das Vergleichen 
mehrerer Lernkurven setzen. 

Es stärkt beispielsweise das Vertrauen in 
ein Ergebnis, wenn das Netz für mehrere 
verschiedene zufällige Initialisierungen im¬ 
mer ungefähr die gleiche Endfehlerrate er¬ 
reicht - mehrmals initialisieren und trai¬ 
nieren macht das Ergebnis also ein wenig 
objektiver. 

Auf der anderen Seite kann sich auch ein 
Bild ergeben, bei dem eine anfangs schnel¬ 
ler fallende Kurve nach längerem Lernen 
von einer anderen Kurve noch überholt 
wird: Dies kann daraufhinweisen, dass ent¬ 
weder die Lernrate der schlechteren Kurve 
zu hoch war oder aber die schlechtere ein¬ 
fach in einem Nebenminimum hängen ge¬ 
blieben ist, dieses aber schneller gefunden 
hat. 

Noch einmal zur Erinnerung: Größere Feh¬ 
lerwerte sind schlechter. 

Auf jeden Fall sei aber beachtet: Worauf 
sich viele beim Lernen verlassen (und sich 
danach wundern, dass wenig funktioniert), 
ist, die Lernkurve nur in Bezug auf die 
Trainingsdaten zu bilden - man sollte al¬ 
so der Objektivität halber nicht vergessen, 


die Testdaten der Übersichtlichkeit halber 
auf eine zweite Lernkurve aufzutragen, die 
üblicherweise etwas schlechtere Werte lie¬ 
fert und auch stärker oszilliert, aber bei 
guter Generalisierung auch sinkt. 

Wenn das Netz dann irgendwann anfängt, 
die Beispiele auswendig zu lernen, kann 
man so durch die Lernkurve Hinweise dar¬ 
auf erhalten: Wenn die Lernkurve der Test¬ 
beispiele plötzlich rapide steigt, während 
die Lernkurve für die Trainingsdaten wei¬ 
ter sinkt, kann dies ein Indikator für Aus¬ 
wendiglernen und schlechter werdende Ge¬ 
neralisierung sein. Hier könnte man dann 
entscheiden, ob das Netz am nächsten 
Punkt der beiden Kurven bereits gut ge¬ 
nug gelernt hat und der Endzeitpunkt des 
Lernens vielleicht hier anzusetzen ist (die¬ 
ses Verfahren wird Early Stopping ge¬ 
nannt). 

Ich weise noch einmal darauf hin, dass 
dies alles nur Indikatoren und keine Wenn- 
Dann-Schlüsse sind. 

4.5 Gradientenbasierte 
Optimierungsverfahren 

Um die mathematische Grundlage für eini¬ 
ge der folgenden Lernverfahren zu schaffen, 
möchte ich zunächst kurz erklären, was 
man unter einem Gradientenabstieg ver¬ 
steht - das Lernverfahren Backpropagation 
of Error beispielsweise baut auf diesen ma¬ 
thematischen Grundlagen auf und erbt so 
die Vor- und Nachteile des Gradientenab¬ 
stiegs. 
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Abbildung 4.3: Veranschaulichung des Gradientenabstiegs auf zweidimensionaler Fehlerfunkti¬ 
on. Wir gehen entgegengesetzt von g, also mit dem steilsten Abstieg einem Tiefpunkt ent¬ 
gegen, wobei die Schrittweite proportional zu |<?| ist (je steiler der Abstieg, desto grö¬ 
ßer die Schrittweite). Links ist die Fläche in 3D gezeigt, rechts die Schritte über die 
Höhenlinien in 2D. Hier wird ersichtlich, wie eine Bewegung in Gegenrichtung von g in 
Richtung Minimum der Funktion erfolgt und proportional zu \g\ ständig langsamer wird. 
Quelle: http://webster.fhs-hagenberg.ac.at/staff/sdreisei/Teaching/WS2001-2002/ 
PatternClassification/graddescent.pdf 


Gradientenabstiegsverfahren werden im 
Allgemeinen verwendet, um Maxirna oder 
Minima n-dimensionaler Funktionen aus¬ 
zumachen. In der Illustration (Abb. 4.3) 
beschränke ich mich übersichtlicherweise 
auf zwei Dimensionen, der Dimensionsan¬ 
zahl sind aber prinzipiell keine Grenzen ge¬ 
setzt. 


sionale Funktionen. Folglich deutet der ne¬ 
gative Gradient —g genau in die Rich¬ 
tung des steilsten Abstiegs. Der Operator 
für einen Gradienten V wird als Nabla- 
Operator bezeichnet, die Gesamtschreib- 
weise für den Gradienten g des Punktes 
(x, y ) einer zweidimensionalen Funktion / 
lautet dabei z.B. g(x,y) = V/(x,y). 


V 

Gradient ist 

mehrdim. 

Ableitung 


Hierbei ist der Gradient ein Vektor g, 
der für jeden differenzierbaren Punkt ei¬ 
ner Funktion definiert ist, genau in die 
Richtung des steilsten Anstiegs von diesem 
Punkt aus deutet und durch seinen Betrag 
\g\ den Steigungsgrad in diese Richtung 
angibt. Der Gradient ist also die Verall¬ 
gemeinerung der Ableitung für mehrdimen¬ 


Definition 4.14 (Gradient). Sei g Gra¬ 
dient. Dann ist g ein ?r-komponentiger 
Vektor, der für jeden Punkt einer (dif¬ 
ferenzierbaren) n-dimensionalen Funktion 
/(x i,X 2 , ■ ■ ■, x n ) bestimmt ist. Die Opera¬ 
torschreibweise für den Gradienten ist de¬ 
finiert als 

g(x i,x 2 , ...,x n ) = V/(x i,x 2 , ...,x n ) 
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4.5 Gradientenbasierte Optimierungsverfahren 


Wir gehen 
Gradient ent¬ 
gegen 


g zeigt für jeden Punkt von / in Richtung 
des stärksten Anstiegs von diesem Punkt 
aus, wobei \g\ dem Grad dieser Steigung 
entspricht. 


Als Gradientenabstieg bezeichnen wir, von 
beliebigem Startpunkt unserer Funktion 
aus entgegen dem Gradienten g schritt¬ 
weise bergab zu gehen (anschaulich gespro¬ 
chen in die Richtung, in die auch eine Ku¬ 
gel vom Startpunkt aus rollen würde), wo¬ 
bei die Schriftgröße proportional zu \g\ ist. 
Auf flachen Plateaus bewegen wir uns also 
langsam, bei großer Steigung schnell den 
steilsten Weg hinab. Geraten wir in ein 
Tal, so werden wir es je nach Größe un¬ 
serer Schritte überspringen oder auf dem 
gegenüberliegenden Hang wieder ins Tal 
umkehren, um durch hin- und hergehen 
dem tiefsten Punkt des Tals immer näher 
zu kommen, ähnlich der Bewegung unserer 
Kugel innerhalb einer runden Schüssel. 

Definition 4.15 (Gradientenabstieg). 
Sei / eine n-dimensionale Funktion und 
s = (si, S 2 , ■ ■ ■, s n ) gegebener Startpunkt. 
Als Gradientenabstieg bezeichnen wir, 
von /(s) aus entgegen der Richtung von 
g , also in Richtung von — g mit Schritten 
in Größe von \g\ in Richtung immer kleine¬ 
rer Werte von / zu gehen. 


Gradientenabstiegsverfahren sind kein feh¬ 
lerfreies Optimierungsverfahren (wie wir 
in den nächsten Abschnitten sehen wer¬ 
den), aber sie funktionieren doch so gut, 
dass sie in der Praxis häufig eingesetzt wer¬ 
den. Dennoch wollen wir uns ihre potenzi¬ 
ellen Nachteile kurz vor Augen führen. 


4.5.1 Gradientenverfahren bringen 
verschiedene Probleme mit 
sich 


Wie in Abschnitt 4.5 angedeutet, ist der 
Gradientenabstieg (und damit Backpropa¬ 
gation) erfolgversprechend, jedoch nicht 
fehlerresistent, wobei eines der Probleme 
ist, dass man nicht immer anhand des Er¬ 
gebnisses ersehen kann, ob ein Fehler pas¬ 
siert ist. 


4.5.1.1 Häufig konvergieren 

Gradientenverfahren nur gegen 
suboptimale Minima 


Jedes Gradientenabstiegsverfahren kann 
zum Beispiel in einem lokalen Minimum 
hängen bleiben (ein Beispiel findet sich in 
Teil a der Abb. 4.4 auf der folgenden Seite) 
- dieses Problem wächst mit der Größe der 
Fehlerfläche an und hierfür gibt es keine 
allgemeingültige Lösung. In der Realität 
kann man nicht wissen, ob man das opti¬ 
male Minimum gefunden hat - also gibt 
man sich zufrieden, sobald man ein Mi¬ 
nimum ausreichender Qualität gefunden 
hat. 


4.5.1.2 Flache Plateaus in der 

Fehleroberfläche können das 
Training sehr verlangsamen 


Auch wird der Gradient beispielsweise 
beim Durchlaufen eines flachen Plateaus 
verschwindend klein (es ist eben kaum Stei¬ 
gung vorhanden (Teil b der Abb. 4.4), was 
sehr viele weitere Schritte nötig macht. 


Gradienten- 
Abstieg 
hat Fehler 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


65 







Kapitel 4 Grundlagen zu Lernprozess und Trainingsbeispielen (wichtige Grundlagfeki)iesel. com 



Abbildung 4.4: Mögliche Fehler während eines Gradientenabstiegs: a) Finden schlechter Minima, 
b) Quasi-Stillstand bei kleinem Gradienten, c) Oszillation in Schluchten, d) Verlassen guter Minima. 


Ein theoretisch möglicher Gradient von 0 
würde den Abstieg gar ganz zum Stillstand 
bringen. 


4.5.1.3 Gute Minima können wieder 
verlassen werden 


tiven Gradienten kann sogar zu einer Os¬ 
zillation führen (Teil c der Abb. 4.4). An 
und für sich hört man von diesem Fehler 
in der Natur selten, so dass wir uns über 
Möglichkeiten b und d Gedanken machen 
können. 


Auf der anderen Seite ist der Gradient 
an einem steilen Hang sehr groß, so dass 
man große Schritte macht und u.U. ein gu¬ 
tes Minimum übersieht (Teil d der Abb. 
44). 


4.5.1.4 Steile Schluchten in der 
Fehlerfunktion können 
Oszillationen hervorrufen 

Ein plötzlicher Wechsel von einem sehr 
stark negativen zu einem sehr stark posi- 


4.6 Beispielproblemstellungen 
sind nützlich, um das 
selbst programmierte 
Netz und Lernverfahren 
zu testen 

Wir haben nun das Lernen noch nicht sehr, 
aber zumindest ein wenig von der formalen 
Seite betrachtet - nun ist es an der Zeit, 
dass ich ein paar Beispielprobleme vorstel¬ 
le, mit denen man sehr gut ausprobieren 
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4.6 Beispielproblemstellungen 


kann, ob ein implementiertes Netz und ein 
Lernverfahren korrekt arbeiten. 

4.6.1 Boolesche Funktionen 

Gerne wird als Beispiel das genommen, 
was in den 1960er Jahren nicht ging: Die 
XOR-Funktion (B 2 — > B 1 ), welches wir 
noch ausführlich besprechen werden. Trivi¬ 
al erwarten wir hier die Ausgaben 1.0 bzw. 
—1.0 je nachdem , ob die Funktion XOR 
1 oder 0 ausgibt - und genau hier liegt 
der erste Anfängerfehler, den man machen 
kann. 

Für Ausgaben nahe 1 oder -1, also na¬ 
he den Grenzwerten des Tangens Hyper- 
bolicus (bzw. im Falle der Fermifunktion 
0 oder 1), benötigt das Netz sehr große 
Netzeingaben. Die einzige Chance, diese 
Netzeingaben zu erreichen, ist durch große 
Gewichte, die erlernt werden müssen: Der 
Lernvorgang wird sehr verlängert. Es ist al¬ 
so klüger, als gewünschte Ausgaben in die 
Teaching Inputs 0.9 bzw. —0.9 einzugeben 
oder aber zufrieden zu sein, wenn das Netz 
diese anstatt 1 und —1 ausgibt. 

Beliebt als Beispiel für Singlelayerpercep- 
trons sind auch die Booleschen Funktionen 
AND und OR. 

4.6.2 Die Paritätsfunktion 

Die Paritätsfunktion bildet eine Menge 
von Bits auf 1 oder 0 ab, je nachdem, ob 
eine gerade Anzahl Inputbits auf 1 gesetzt 
ist oder nicht - es handelt sich also grund¬ 
sätzlich um eine Funktion B n —>• B 1 . Sie ist 


H 

i 2 

h 

fl 

0 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

0 

1 

1 

1 

1 

0 

0 

0 

1 

0 

1 

1 

1 

1 

0 

1 

1 

1 

1 

0 


Tabelle 4.1: Darstellung der Paritätsfunktion 
mit drei Eingaben. 


durch leichte Lernbarkeit bis ca. n = 3 ge¬ 
kennzeichnet (dargestellt in Tab. 4.1), der 
Lernaufwand steigt aber ab n = 4 rapide 
an. Der Leser möge doch einmal eine Wer¬ 
tetabelle für die 2-bit-Paritätsfunktion er¬ 
stellen - was fällt auf? 


4.6.3 Das 2-Spiralen-Problem 


Nehmen wir als Trainingsbeispiel für eine 
Funktion zwei ineinander gewundene Spi¬ 
ralen (Abb. 4.5 auf der folgenden Seite), 
wobei die Funktion natürlich eine Abbil¬ 
dung M 2 —)• B 1 repräsentiert. Eine der Spi¬ 
ralen ist mit dem Outputwert 1 belegt, die 
andere mit 0. Hier hilft Auswendiglernen 
nicht groß weiter, das Netz muss wirklich 
die Abbildung an sich verstehen. Auch die¬ 
ses Beispiel kann mit einem MLP gelöst 
werden. 
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Abbildung 4.5: Skizze zum Trainingsbeispiel Abbildung 4.6: Skizze von Trainingsbeispielen 
des 2-Spiralen-Problems des Schachbrettproblems 


4.6.4 Das Schachbrettproblem 4.6.5 Die Identitätsfunktion 


Wir kreieren uns wieder eine zweidimen¬ 
sionale Funktion der Form M 2 —> B 1 und 
geben schachbrettartige Trainingsbeispiele 
an (Abb. 4.6), wobei ein eingefärbtes Feld 
eine 1 repräsentiert, alle anderen 0. Hier 
steigt die Schwierigkeit wieder mit Größe 
der Funktion: Während ein 3 x 3-Feld noch 
leicht zu lernen ist, sieht es mit größeren 
Feldern schon schwierig aus. 


Das 2-Spiralen-Problem ist dem Schach¬ 
brettproblem sehr ähnlich, nur dass bei 
ersterem mathematisch gesehen Polarko¬ 
ordinaten statt kartesischen Koordinaten 
verwendet werden. Eine letzte Kleinigkeit 
möchte ich noch als Beispiel vorstellen: 
Die Identität. 


Mit linearen Aktivierungsfunktionen wä¬ 
re die Identitätsabbildung von M 1 nach 
M 1 (natürlich fairerweise im Wertebe¬ 
reich der verwendeten Aktivierungsfunkti¬ 
on) für das Netz kein Problem, doch wir 
legen ihm durch Verwendung unserer sig- 
rnoiden Funktionen Steine in den Weg, so 
dass es für das Netz sehr schwierig ist, die 
Identität zu lernen. Versuchen Sie es doch 
einmal spaßeshalber. 


4.6.6 Es gibt eine Vielzahl von 
Beispielproblemstellungen 

Für die Einarbeitung in weitere beispiel¬ 
hafte Problemstellungen möchte ich aus- 
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4.7 Hebbsche Lernregel 


Frühe 
LernregeI 


Awij 


drücklich den Technical Report von Pre- 
chelt |Pre9 4 ans Herz legen, der auch 
schon im Rahmen der Fehlermessungsver¬ 
fahren erwähnt wurde. 


Nun können wir unsere erste mathemati¬ 
sche Lernregel betrachten. 


4.7 Die Hebbsche Lernregel 
ist der Grundstein für die 
meisten anderen 
Lernregeln 


Die 1949 von Donald O. Hebb formu¬ 
lierte Hebbsche Lernregel |Heb49 bil¬ 
det den Grundstein für die meisten kom¬ 
plizierteren Lernregeln, welche wir in die¬ 
ser Arbeit besprechen. Hierbei wird unter¬ 
schieden zwischen der Urform und der all¬ 
gemeineren Form, einer Art Grundgerüst 
für viele andere Lernregeln. 


4.7.1 Urform 

Definition 4.16 (Hebbsche Lernregel). 
„Wenn Neuron j eine Eingabe von Neuron 
i erhält und beide gleichzeitig stark aktiv 
sind, dann erhöhe das Gewicht Wij (also 
die Stärke der Verbindung von i nach j). u 
Mathematisch ausgedrückt lautet sie also: 

A Wij ~ goiüj (4.5) 

wobei Awjjj die Änderung des Gewich¬ 
tes von i nach j bezeichnet, welche propor¬ 
tional zu folgenden Faktoren ist: 


D> der Ausgabe Oi des Vorgängerneurons 

i, 

D> der Aktivierung aj des Nachfolgerneu- 
rons j, 

D> sowie einer Konstante rj, der Lernrate, 
auf die wir in Abschnitt 15.4.31 noch 
genau eingehen. 


Gewichtsänderungen A Wi j werden ein¬ 
fach auf das Gewicht Wij aufaddiert. 

Warum spreche ich in der umgangssprach¬ 
lichen Formulierung zweimal von Aktivie¬ 
rung, schreibe jedoch in der Formel von o, 
und aj , also von der Ausgabe des Neurons 

1 und der Aktivierung des Neurons j? Wir 
erinnern uns, dass sehr oft die Identität als 
Ausgabefunktion verwendet wird und so a* 
und Oi eines Neurons oft identisch sind - 
weiterhin postulierte Hebb seine Lernregel 
weit vor der Spezifikation technischer Neu¬ 
rone. Wenn man bedenkt, dass diese Lern¬ 
regel gerne bei binären Aktivierungen ver¬ 
wendet wurde, ist klar, dass die Gewichte 
bei möglichen Aktivierungen (1,0) entwe¬ 
der anwachsen oder gleichbleiben. Sie wür¬ 
den also über kurz oder lang ins unend¬ 
liche gehen, da sie bei Fehlern nur „nach 
oben“ korrigiert werden können. Dies kann 
ausgeglichen werden, indem man die Akti¬ 
vierungen (—1,1) verwendet 2 . So werden 
die Gewichte bei Nichtübereinstimmung 
der Aktivierung von Vorgänger- und Nach¬ 
folgerneuron verringert, sonst verstärkt. 

2 Das ist dann aber nicht mehr die „Originalversion" 
der Hebbschen Lernregel. 


Gewichte 
gehen gegen 
unendlich 
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4.7.2 Verallgemeinerte Form eine Lernregel aussehen kann und uns Ge¬ 

danken zum Lernen an sich gemacht ha- 
Die meisten weiteren hier besprochenen ben. 

Lernregeln sind eine Spezialisierung der 
mathematisch allgemeineren Form [ MR861 

der Hebbschen Lernregel. Übungsaufgaben 


Definition 4.17 (Hebb-Regel, allgemei¬ 
ner). Die verallgemeinerte Form der 
Hebbschen Regel benennt nur die Pro¬ 
portionalität der Gewichtsänderung zum 
Produkt zweier nicht näher definierter 
Funktionen, allerdings mit definierten Ein¬ 
gabewerten. 

A Wij = rj ■ h{oi , Wij) ■ g(üj,tj) (4.6) 

Hierbei ergibt das Produkt der Funktio¬ 
nen 

t> g(üj,tj ) und 

> h(oi, Wij) 

> sowie wieder der konstanten Lernrate 
V 

die Gewichtsänderung. Wie man sieht, 
nimmt h also die Ausgabe der Vorgänger¬ 
zelle Oi sowie das Gewicht von Vorgänger 
zu Nachfolger entgegen, während g 
die tatsächliche und gewünschte Aktivie¬ 
rung des Nachfolgers aj sowie tj ( t steht 
hier für den erwähnten Teaching Input ) 
erwartet. In dieser allgemeinen Definition 
sind g und h, wie schon angemerkt, nicht 
konkretisiert - wir werden uns daher jetzt 
auf den vor Gleichung |4.6| angesprochenen 
Pfad der Spezialisierung begeben und un¬ 
ser erstes Netzparadigma samt Lernverfah¬ 
ren kennenlernen, nachdem wir nun eine 
kurze Ansicht dessen gehabt haben, wie 


Aufgabe 7. Berechnen Sie für die folgen¬ 
den Datenpunkte den Mittelwert g und 
die Standardabweichung a. 

Pl = (2,2,2) 
p2 = (3,3,3) 
p3 = (4,4,4) 
p4 = (6,0,0) 

P 5 = (0,6,0) 

p6 = (0,0,6) 
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Kapitel 5 

Das Perceptron, Backpropagation und 
seine Varianten 


Der Klassiker unter den Neuronalen Netzen. Wenn von einem Neuronalen 
Netz gesprochen wird, ist meistens ein Perceptron oder eine Variation davon 
gemeint. Perceptrons sind mehrschichtige Netze ohne Rückkopplung, mit 
festen Eingabe- und Ausgabeschichten. Beschreibung des Perceptrons, seiner 
Grenzen und seiner Erweiterungen, welche die Grenzen umgehen sollen. 
Herleitung von Verfahren, es lernen zu lassen, und Diskussion über deren 

Probleme. 


Wie schon in der Geschichte Neurona¬ 
ler Netze erwähnt, wurde das Perceptron 
von Frank Rosenblatt 1958 beschrie¬ 
ben |Ros58 . Rosenblatt legte als Kompo¬ 
nenten des Perceptrons zunächst die schon 
besprochene gewichtete Summe, sowie eine 
nichtlineare Aktivierungsfunktion fest. 

Obwohl es keine wirklich feste Defi¬ 
nition des Perceptrons gibt, ist meis¬ 
tens ein FeedForward-Netz mit ShortCut- 
Connections gemeint, das eine Schicht 
von Abtastneuronen ( Retina ) mit statisch 
gewichteten Verbindungen zur nächsten 
Schicht besitzt, die wir Eingabeschicht 


nennen (Abb. 5.1 auf der folgenden Seite) 


alle Gewichte ab der Eingabeschicht dür¬ 
fen aber verändert werden. Die der Reti¬ 
na nachgeordneten Neuronen stellen Mus¬ 
terdetektoren dar. Wir verwenden hier zu¬ 


nächst ein binäres Perceptron , bei dem 
jedem Outputneuron genau zwei mögli¬ 
che Ausgabewerte zur Verfügung stehen 
(z.B. {0,1} oder {—1,1}). Wir verwen¬ 
den also eine binäre Schwellenwertfunk¬ 
tion als Aktivierungsfunktion, abhängig 
vom jeweiligen Schwellenwert 0 des Out¬ 
putneurons. 

Gewissermaßen stellt eine binäre Aktivie¬ 
rungsfunktion also eine IF-Abfrage dar, 
die man durch negative Gewichte auch ne¬ 
gieren kann - man kann also mit dem Per¬ 
ceptron wirkliche logische Informationsver¬ 
arbeitung durchführen. 

Ob das sinnvoll ist, sei einmal dahinge¬ 
stellt - Boolesche Logik kann man na¬ 
türlich auch einfacher haben. Ich möchte 
nur darstellen, dass Perceptrons durchaus 
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Abbildung 5.1: Aufbau eines Perceptrons mit einer Schicht variabler Verbindungen in verschiede¬ 
nen Ansichten. Die durchgezogene Gewichtsschicht in den unteren beiden Abbildungen ist trainier¬ 
bar. 

Links: Am Beispiel der Informationsabtastung im Auge. 

Rechts oben: Skizze desselben mit eingezeichneter fester Gewichtsschicht unter Verwendung der 
definierten funktionsbeschreibenden Designs für Neurone. 

Rechts unten: Ohne eingezeichnete feste Gewichtsschicht, mit Benennung der einzelnen Neuronen 
nach unserer Konvention. Wir werden die feste Gewichtschicht im weiteren Verlauf der Arbeit nicht 
mehr betrachten. 
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Eingabeneuron 
leitet nur 
Daten weiter 


als simple logische Bausteine nutzbar sind 
und man mit geschickten hintereinander- 
und zusammengeschalteten Perceptrons 
theoretisch jede Boolesche Funktion rea¬ 
lisieren kann. Wir werden aber noch se¬ 
hen, dass dies ohne Hintereinanderschal¬ 
tung nicht möglich ist. Bevor wir das Per- 
ceptron an sich definieren, möchte ich zu¬ 
nächst einige Neuronenarten, welche wir 
in diesem Kapitel verwenden werden, defi¬ 
nieren. 

Definition 5.1 (Eingabeneuron). Ein 
Eingabeneuron (auch Inputneuron ge¬ 
nannt) ist ein Identitätsneuron - es gibt 
genau das weiter, was es als Eingabe er¬ 
hält. Es repräsentiert also die Identitäts¬ 
funktion, die wir durch das Symbol / an¬ 
deuten wollen. Wir stellen ein Eingabeneu¬ 
ron daher mit dem Symbol (/) dar. 


Definition 5.2 (Informationsverarbeiten¬ 
des Neuron). Informationsverarbei¬ 
tende Neurone verarbeiten die eingege¬ 
bene Information auf irgendeine Weise, re¬ 
präsentieren also nicht die Identitätsfunk¬ 
tion. Ein Binäres Neuron summiert al¬ 
le Eingaben, die es erhält, durch die ge¬ 
wichtete Summe als Propagierungsfunkti¬ 
on auf, was wir mit dem Summenzeichen E 
skizzieren wollen. Die Aktivierungsfunkti¬ 
on des Neurons ist dann die binäre Schwel¬ 


lenwertfunktion, die mit. 


skizziert wer¬ 


den kann. Dies bringt uns insgesamt zu 


der Symboldarstellung 



. Analog wer¬ 


den andere Neurone mit gewichteter Sum¬ 
me als Propagierungsfunktion, jedoch den 
Aktivierungsfunktionen Tangens Hyperbo- 


licus, Fermifunktion oder einer separat de¬ 
finierten Aktivierungsfunktion / act als 



dargestellt. Diese Neurone bezeichnen wir 
dann z.B. auch als Fermi-Neuron oder 
Tanh-Neuron. 


Ausgabeneurone werden auch oft Out¬ 
putneuron genannt. Nachdem wir nun 
die Bestandteile eines Perceptrons kennen, 
können wir es auch definieren. 


Definition 5.3 (Perceptron). Das Per- 
ceptron (Abb. 5.1 auf der linken Seite) 
ist 1 ein FeedForward-Netz, in welchem es 
eine Retina gibt, die der reinen Datenauf¬ 
nahme dient und fest gewichtete Verbin¬ 
dungen zur ersten Neuronenschicht (Ein¬ 
gabeschicht) besitzt. Der festen Gewichts¬ 
schicht folgt mindestens eine trainierbare 
Gewichtsschicht. Eine Neuronenschicht ist 
zur jeweils nächsten voll verknüpft. Die ers¬ 
te Schicht des Perceptrons besteht aus den 
oben definierten Eingabeneuronen. 


Oft enthält ein FeedForward-Netz auch 
ShortCuts, was aber nicht exakt der ur¬ 
sprünglichen Beschreibung entspricht und 
daher hier auch nicht der Definition hin¬ 
zugefügt wird. Wir sehen, dass die Reti¬ 
na gar nicht in den unteren Teil der Abb. 
5.1 mit einbezogen wird - in der Tat wird 


1 Es mag dem einen oder anderen Leser sauer aufsto¬ 
ßen, dass ich behaupte, es gäbe keine Definition 
für ein Perceptron, das Perceptron aber im nächs¬ 
ten Absatz definiere. Ich schlage daher vor, meine 
Definition im Hinterkopf zu behalten, aber nur für 
diese Arbeit als wirklich gegeben anzusehen. 
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Retina wird 
vernachlässigt 


1 trainierb. 
Schicht 


meist (vereinfachend und für die Imple¬ 
mentierung ausreichend) die erste Neuro¬ 
nenschicht nach der Retina als Eingabe¬ 
schicht betrachtet, da diese die Inputwerte 
sowieso nur weitergibt. Die Retina selbst 
und die statischen Gewichte dahinter wer¬ 
den also nicht weiter erwähnt oder abgebil¬ 
det, da sie sowieso nicht informationsver- 
arbeitend sind. Die Abbildung eines Per- 
ceptrons beginnt also bei den Inputneuro¬ 
nen. 


SNIPE: Die Methoden 

setSettingsTopologyFeedForward so¬ 
wie die Variante -WithShortcuts einer 
NeuralNetworkDe script or-Instanz konfi¬ 
gurieren den Descriptor für FeedForward- 
Netze bzw. solche mit Shortcuts, indem 
sie die entsprechenden Verbindungsklassen 
erlauben. Andere Verbindungsklassen 
werden verboten und Fastprop wird 
aktiviert. 



Abbildung 5.2: Ein Singlelayerperceptron mit 
zwei Eingabeneuronen und einem Outputneuron. 
Durch den aus dem Netz herausführenden Pfeil 
gibt das Netz die Ausgabe aus. In der Mitte be¬ 
findet sich die trainierbare Schicht von Gewich¬ 
ten (beschriftet). Zur Erinnerung habe ich hier 
noch einmal das Biasneuron mit abgebildet. Ob¬ 
wohl das Gewicht u>BiAs,n ein ganz normales Ge¬ 
wicht ist und auch so behandelt wird, habe ich es 
hier nur gepunktet gezeichnet - dies erhöht die 
Übersichtlichkeit bei größeren Netzen stark. In 
Zukunft werden wir das Biasneuron nicht mehr 
mit abbilden. 


5.1 Das Singlelayerperceptron 
besitzt nur eine 
trainierbare 
Gewichtsschicht 


der Schicht Eingabeneurone nur eine va¬ 
riable Gewichtsschicht und eine Schicht 
Ausgabeneurone O besitzt. Die technische 
Sicht eines SLPs findet sich in Abb. 15.21 


Hier gehen von der Eingabeschicht Verbin¬ 
dungen mit trainierbaren Gewichten zu ei¬ 
nem Ausgabeneuron O, welches ausgibt, 
ob das an den Eingabeneuronen eingege¬ 
bene Muster erkannt wird oder nicht. Ein 
Singlelayerperceptron (kurz: SLP) besitzt 
also nur eine Ebene trainierbarer Gewichte 
(Abb. 5.1 auf Seite 74). 


Definition 5.4 (Singlelayerperceptron). 
Als Singlelayerperceptron (SLP) wird 
ein Perceptron bezeichnet, welches nach 


Es ändert am Prinzip des Perceptrons 
natürlich nichts wesentlich, wenn mehre¬ 
re Ausgabeneurone ER, O 2 ,..., Vorkom¬ 
men (Abb. 5.3 auf der rechten Seite): Ein 
Perceptron mit mehreren Ausgabeneuro¬ 
nen kann man auch als mehrere verschie¬ 
dene Perceptrone mit derselben Eingabe 
ansehen. 


Als triviale, zusammensetzbare Beispiele 
sind die in Abb. 15.4 auf der rechten Seitei 


Wichtig! 
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5.1 Das Singlelayerperceptron 



Abbildung 5.3: Singlelayerperceptron mit meh¬ 
reren Ausgabeneuronen 


dargestellten Booleschen Funktionen AND 
und OR zu sehen. 

Wir möchten nun erfahren, wie wir 
ein Singlelayerperceptron trainieren kön¬ 
nen, und betrachten hierzu zunächst den 
Perceptron-Lernalgorithmus und anschlie¬ 
ßend die Delta-Regel. 

5.1.1 Perceptron-Lernalgorithmus 
und Konvergenz-Theorem 

Der ursprüngliche Perceptron- 
Lernalgorithmus mit binärer 
Aktivierungsfunktion in den Neuronen ist 
beschrieben in Alg. [l| Es ist bewiesen, 
dass der Algorithmus in endlicher Zeit kon¬ 
vergiert - das Perceptron also in endlicher 
Zeit alles lernen kann, was ihm möglich 
ist, zu repräsentieren ( Perceptron- 
Konvergenz-Theorem, |Ros 62]). Der 
Leser sollte sich hierbei nicht zu früh 
freuen. Was das Perceptron repräsentieren 
kann, werden wir noch erforschen. 



Abbildung 5.4: Zwei Singlelayerperceptrons für 
Boolesche Funktionen. Das obere Singlelayer¬ 
perceptron realisiert ein AND, das untere ein 
QR. Die Aktivierungsfunktion des informations¬ 
verarbeitenden Neurons ist jeweils die binäre 
Schwellenwertfunktion, wo vorhanden stehen die 
Schwellenwerte in den Neuronen. 
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1: while 3p € P and Fehler zu groß do 

2: Gebe ein p in Netz ein, berechne Ausgabe y {P Menge der Trainingsmuster} 

3: for jedes Ausgabeneuron Q do 

4: if yn = tn then 

5: Ausgabe richtig, keine Gewichtsänderung 

6: eise 

7: if Vn = 0 then 

8: for jedes Eingabeneuron i do 

9: w it n ■■= + Oi {...Gewicht 

10: end for 

11: end if 

12: if Vu = 1 then 

13: for jedes Eingabeneuron i do 

14: w i: n := Witf - Oi {...Gewicht 

15: end for 

16: end if 

17: end if 

18: end for 

19: end while 

Algorithmus 1: Perceptron-Lernalgorithmus. Der Perceptron-Lernalgorithmus verrin¬ 
gert Gewichte zu Ausgabeneuronen, welche 1 statt 0 ausgeben, und erhöht Gewichte 
im umgekehrten Fall. 


zu fl um Oi vergrößern} 


zu fl um Oi verkleinern} 
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/act nun 
diffbar 


Während der Erforschung der linearen 
Separierbarkeit von Problemen werden 
wir noch behandeln, dass zumindest das 
Singlelayerperceptron leider viele Proble¬ 
me nicht repräsentieren kann. 

5.1.2 Die Delta-Regel als 
gradientenbasiertes 
Lernverfahren für SLPs 

Im Folgenden weichen wir von unserer 
binären Schwellenwertfunktion als Akti¬ 
vierungsfunktion ab, denn zumindest für 
Backpropagation of Error brauchen wir, 
wie wir gleich sehen werden, eine diffe¬ 
renzierbare oder gar semilineare Aktivie¬ 
rungsfunktion - für die nun folgende Delta- 
Regel (ebenfalls hergeleitet in |MR86]) ist 
sie nicht zwangsweise erforderlich, aber 
nützlich. Auf diesen Umstand wird aber 
auch noch einmal an Ort und Stelle hin¬ 
gewiesen. Die Delta-Regel hat gegenüber 
dem obigen Perceptron-Lernalgorithmus 
im Wesentlichen die Vorteile, für nicht¬ 
binäre Aktivierungsfunktionen geeignet zu 
sein und, bei großer Entfernung zum Lern¬ 
ziel, automatisch schneller zu lernen. 

Angenommen, wir besitzen ein Single¬ 
layerperceptron mit zufällig gesetzten Ge¬ 
wichten, dem wir eine Funktion anhand 
von Trainingsbeispielen beibringen möch¬ 
ten. Die Menge dieser Trainingsbeispiele 
nennen wir P - sie enthält, wie schon de¬ 
finiert, Paare (p. t) von Trainingsbeispie¬ 
len p und zugehörigem Teaching Input t. 
Ich rufe auch noch einmal in Erinnerung, 
dass 

> x Inputvektor und 


D> y Outputvektor eines Neuronalen Net¬ 
zes ist, 

D> Outputneurone fii, H 2 , • ■ •, fiioi ge- 
nannt werden und 

D> i Input sowie 

D> o Output eines Neurons ist. 

Ferner haben wir definiert, dass 

D> der Fehlervektor E p die Differenz (t — 
y ) unter einem bestimmten Trainings¬ 
beispiel p darstellt. 

D> Sei weiterhin wie gehabt O die Menge 
der Ausgabeneurone und 

D> I die Menge der Eingabeneurone. 

Als weitere Namenskonvention wollen wir 
vereinbaren, dass z.B. für Output o und 
Teaching Input t ein zusätzlicher Index p 
gesetzt werden darf, um anzuzeigen, dass 
diese Größe musterspezifisch ist - dies er¬ 
höht manchmal die Übersichtlichkeit ganz 
erheblich. 

Unser Lernziel ist jetzt natürlich, dass bei 
allen Trainingsbeispielen der Output y des 
Netzes annähernd gleich dem gewünschten 
Output t ist, also formal gilt 

Vp : y « t bzw. Vp : E p « 0. 

Hierfür müssen wir erst lernen, den Ge¬ 
samtfehler Err als Funktion der Gewichte 
zu betrachten: Der Gesamtfehler nimmt zu 
oder ab, je nachdem, wie wir die Gewichte 
ändern. 
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Abbildung 5.5: Beispielhafte Fehlerfläche eines 
Neuronalen Netzes mit zwei trainierbaren Verbin¬ 
dungen w\ und W 2 ■ In der Regel haben Neu¬ 
ronale Netze mehr als zwei Verbindungen, was 
hier nicht so übersichtlich abzubilden gewesen 
wäre. Weiterhin ist die Fehlerfläche meist sehr 
viel zerklüfteter, was die Suche nach dem Mini¬ 
mum erschwert. 


Wie wir bereits in Abschnitt 14.51 zum The¬ 
ma Gradientenabstiegsverfahren gesehen 
haben, berechnen Gradientenabstiegsver¬ 
fahren den Gradienten einer beliebig- aber 
endlichdimensionalen Funktion (hier der 
Fehlerfunktion Err(VF)) und gehen entge¬ 
gen dem Gradienten nach unten, bis ein 
Minimum erreicht ist. Err (VF) ist auf der 
Menge sämtlicher Gewichte definiert, die 
wir hier als Vektor VF ansehen. Es wird 
also versucht, den Fehler zu verringern 
bzw. zu minimieren, indem man, salopp 
gesagt, an den Gewichten dreht — man 
bekommt also Informationen darüber, wie 
man die Gewichte verändern soll (die Ver¬ 
änderung aller Gewichte bezeichnen wir 
mit AW), indem man die Fehlerfunktion 
Err(VF) nach diesen ableitet: 

-VErr(W). (5.1) 


Err (VF) 


Fehler als 
Funktion 


En-p(VF) 


Definition 5.5 (Fehlerfunktion). Die 
Fehlerfunktion 

Err : VF —> M 

fasst die Menge 2 der Gewichte VF als Vek¬ 
tor auf und bildet die Gewichtswerte auf 
den normalisierten Ausgabefehler ab (nor¬ 
malisiert daher, weil man sämtliche Aus¬ 
gabefehler sonst nicht in einem einzelnen 
e G M abbilden kann, um einen Gradi¬ 
entenabstieg darauf durchzuführen). Dass 
sich analog eine spezifische Fehlerfunk¬ 
tion für ein einzelnes Muster p bilden 
lässt, ist offensichtlich. 


2 Der Tradition anderer Literatur folgend, habe ich 
W vorher als Gewichtsmatr/x definiert - ich bin 
mir dieses Konfliktes bewusst, er wird uns hier 
aber nicht weiter stören. 


Aufgrund dieser Proportionalität gibt es 
eine Proportionalitätskonstante 77 , so dass 
Gleichheit gilt (77 wird bald noch eine wei¬ 
tere Bedeutung und wirklich praktischen 
Nutzen außerhalb der bloßen Bedeutung 
als Proportionalitätskonstante bekommen. 
Ich möchte den Leser bitten, sich bis dahin 
noch etwas zu gedulden.): 

AW = — ? 7 VErr(VF). (5.2) 

Die Ableitung der Fehlerfunktion nach den 
Gewichten schreiben wir jetzt als norma¬ 
le partielle Ableitung nach einem Gewicht 
Wi t n (es gibt nur variable Gewichte zu Aus¬ 
gabeneuronen II), um damit rechnerisch 
etwas mehr anfangen zu können. Wir dre¬ 
hen also an jedem einzelnen Gewicht und 
schauen, wie sich die Fehlerfunktion dabei 
ändert, leiten also die Fehlerfunktion nach 
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einem Gewicht w % q ab und erhalten so die 
Information Awifi, wie wir dieses Gewicht 
verändern sollen. 


A w it n = -rj 


dErr(VT) 

diUifi 


(5.3) 


Nun stellt sich langsam die Frage: Wie 
ist denn genau unsere Fehlerfunktion defi¬ 
niert? Es ist schlecht für uns, wenn sich vie¬ 
le Ergebnisse fern der gewünschten finden, 
die Fehlerfunktion sollte dann also große 
Werte liefern - auf der anderen Seite ist es 
auch nicht gut, wenn viele Ergebnisse na¬ 
he der gewünschten sind, es aber vielleicht 
einen sehr weit entfernten Ausreißer gibt. 
Es bietet sich also der Quadratische Ab¬ 
stand zwischen dem Ausgabevektor y und 
dem Teaching Input t an, der uns den für 
ein Trainingsbeispiel p spezifischen Fehler 
Erip über die Ausgabe aller Outputneuro¬ 
ne II liefert: 

Errp(IT) = IY. “ 2/pa) 2 - (5.4) 

1 f2eo 


Wir quadrieren also die Differenzen der 
Komponenten der Vektoren t und y unter 
einem Muster p und summieren diese Qua¬ 
drate auf. Die Fehlerdefinition Err und da¬ 
mit die der Fehlerfunktion Err(W) ergibt 
sich dann einfach durch die Aufsummie¬ 
rung der spezifischen Fehler Err p (W) aller 
Muster p: 


Der aufmerksame Leser wird sich natür¬ 
lich fragen, woher denn in Gleichung |5.4| 
der Faktor ^ plötzlich kommt, und wo 
denn, da die Gleichung dem euklidischen 
Abstand so ähnlich sieht, die Wurzel ge¬ 
blieben ist. Beides folgt aus einfacher Prag¬ 
matik: Es geht nur um die Fehlerminimie- 
rung. Die Wurzelfunktion ist monoton und 
sinkt mit ihrem Argument, also können 
wir sie auch dem Rechen- und Implementa¬ 
tionsaufwand zuliebe weglassen, da wir sie 
für die Minimierung nicht brauchen. Eben¬ 
so ist egal, ob wir den zu minimierenden 
Term durch den Vorfaktor | halbieren: Ich 
darf also mit \ multiplizieren - aus der rei¬ 
nen Faulheit heraus, damit es sich im wei¬ 
teren Verlauf unserer Rechnungen gegen 
eine 2 herauskürzt. 

Nun wollen wir fortfahren, die Delta-Regel 
für lineare Aktivierungsfunktionen herzu¬ 
leiten. Wir haben bereits behandelt, dass 
man etwas an den einzelnen Gewichten 
Wifi dreht und schaut, wie sich der Feh¬ 
ler Err (VT) verändert - was der Ableitung 
der Fehlerfunktion Err(VT) nach eben die¬ 
sem Gewicht Wifi entspricht. Diese Ablei¬ 
tung entspricht (da sich der Gesamtfehler 
Err(VT) aus der Summe der spezifischen 
Fehler ergibt) der Summe der Ableitungen 
aller spezifischen Fehler Err p nach diesem 
Gewicht: 


Err (VT) = Err p (VT) 

peP 

Summe über alle p 


(5.5) 


1 


- o ^2 X] ttpfi Vp&) 


peP \neO 


Summe über alle f2 


(5.6) 


A w^a = —rj- 


öErr(VT) 


= H ~ r l 

peP 


dwifi 

<9Err p (W) 


dwis 


(5.7) 

(5.8) 


An dieser Stelle möchte ich noch einmal 
darüber nachdenken, wie ein Neuronales 
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Netz denn Daten verarbeitet. Im Grunde 
werden die Daten nur durch eine Funkti¬ 
on geschickt, das Ergebnis der Funktion 
durch eine weitere und so weiter und so 
fort. Lassen wir die Outputfunktion ein¬ 
mal außen vor, so besteht der Weg von 
Neuronenausgaben o,;, und o l2 , die von 
Neuronen i\ und 12 in ein Neuron fl ein¬ 
gegeben werden, zunächst aus der Pro¬ 
pagierungsfunktion (hier gewichtete Sum¬ 
me), aus der wir dann die Netzeingabe er¬ 
halten. Diese wird dann durch die Aktivie¬ 
rungsfunktion des Neurons fl geschickt, so 
dass wir den Output dieses Neurons erhal¬ 
ten, der auch gleichzeitig eine Komponen¬ 
te des Ausgabevektors y ist: 

:' c t o > /act 

= /act(netn) 

= on 
= Vn- 


Wie wir sehen, resultiert dieser Output aus 
vielen ineinander geschachtelten Funktio¬ 
nen: 

on = /act(neto) (5.9) 

= /ac^o*! ■ w iu n + o i2 ■ w i2 ^)- (5.10) 


Kettenregel anwenden, um die in Glei¬ 
chung |5.8 auf der vorangehenden Seite| ent¬ 
haltene Ableitung zu zerlegen. 


r \ / 


dwi 




do v o 


dw 






Betrachten wir den ersten multiplikati¬ 
ven Faktor der obigen Gleichung |5.11 


der die Ableitung des spezifischen Fehlers 
EiTp(VF) nach dem Output darstellt, al¬ 
so die Veränderung des Fehlers Err p mit 
dem Output o Pi n: Es ist bei Betrachtung 
von Err p (Gleichung 5.4 auf der vorange¬ 


henden Seite) klar, dass diese Veränderung 


sich genau mit der Differenz zwischen Te- 
aching Input und Ausgabe (f Pi n — o Pt n) 
verändert (wir erinnern uns: Da fl Ausga¬ 
beneuron, gilt o Pi n = y Pt n). Ist der Out¬ 
put dem Teaching Input näher, so ist der 
spezifische Fehler kleiner. Wir können also 
das eine durch das andere ersetzen, wobei 
wir diese Differenz auch ö Pt n, nennen (da¬ 
her hat die Delta-Regel ihren Namen): 


<9Err p (W) 

dwitf 


{tp,n °p,n) 


— öp,fl • 


do p ,n 

dwi.n 


do p ,n 

dw i: n 

(5.12) 


(5.13) 


Dass wir den Output auch bis in die Ein¬ 
gabeneurone aufschlüsseln können, ist klar 
(das ist hier nicht notwendig, da diese 
bei einem SLP keine Informationsverarbei¬ 
tung betreiben). Wir wollen also die Ab¬ 


leitungen von Gleichung 5.8 auf der vor- 


|angehenden Seite] durchführen und kön¬ 
nen durch die Funktionsschachtelung die 


Der zweite multiplikative Faktor der Glei¬ 
chung |5.11 und der folgenden ist die Ab¬ 
leitung des Outputs des Neurons fl zum 
Muster p nach dem Gewicht Wie ver¬ 
ändert sich also o P) n bei der Veränderung 
des Gewichts von i nach fl? Da wir nach 
der Forderung am Anfang der Herleitung 
nur eine lineare Aktivierungsfunktion / ac t 
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haben, können wir genauso gut die Verän¬ 
derung der Netzeingabe bei Veränderung 
von Wi } ci betrachten: 

dErr p (W) = _ _ dJ2 ie i{o P ,iWj,n) 

dw it n P,n dw hü 

(5.14) 


Für die „Online-Learning-Version“ der 
Delta-Regel wird die Aufsummierung ein¬ 
fach weggelassen und direkt nach der Prä¬ 
sentation jedes Musters gelernt, was uns 
auch die Schreibweise vereinfacht (sie muss 
nicht mehr auf ein Muster p bezogen 
sein): 


Diese Ableitung- ‘1^ ^’ können wir 

nun vereinfachen: Die abzuleitende Funkti¬ 
on YU&i{°p,i w ifr) besteht aus vielen Sum¬ 
manden, und nur der Summand o p ^Wi y n 
enthält die Variable w t xi-, nach der wir ab¬ 
leiten. Es gilt also d ^ ie g^° P n tW '' Sl) = o P! i 
und damit: 


dErr p (W) 

dw it tt 


-ö - 


'p,f2 ' Op,i 


— 0p,i ' ^p,r2* 


(5.15) 

(5.16) 


Dies setzen wir in die Gleichung 5.8 auf| 
ISeite Bll ein und erhalten so unsere Modi¬ 
fikationsregel für ein Gewicht w l xp. 


Aw it n = V ■ Oi ■ Sn- (5.18) 

Diese Version der Delta-Regel möchte ich 
auch für die folgende Definition verwen¬ 
den. 


Definition 5.6 (Delta-Regel). Bestim¬ 
men wir analog zu obiger Herleitung, dass 
die Funktion h aus der Hebb-Regel (Glei¬ 
chung 4.6 auf Seite 70) nur den Ausgabe¬ 
wert Oi des Vorgängerneurons i wieder aus¬ 
gibt und die Funktion g die Differenz von 
gewünschter Aktivierung tn und tatsächli¬ 
cher Aktivierung an ist, so erhalten wir die 
Delta-Regel, auch bekannt als Widrow- 
Hoff-Regel: 


Ak^q = v ■ Oi ■ (tn - an) = goiön (5.19) 


A Wip = g ■ ^2 o Pti ■ ö Pt n. (5.17) 
peP 

Allerdings: Wir haben die Herleitung 
schon von Anfang an als Offline-Regel be¬ 
gonnen, indem wir uns Gedanken gemacht 
haben, wie wir die Fehler aller Muster auf¬ 
summieren und jeweils nach der Präsenta¬ 
tion aller Muster lernen. Dies ist der ma¬ 
thematisch korrekte Weg, aber aufwändi¬ 
ger zu implementieren und, wie wir spä¬ 
ter in diesem Kapitel sehen werden, auch 
teilweise rechenaufwändiger während des 
Trainings. 


Wenn man als Teaching Input die ge¬ 
wünschte Ausgabe anstatt Aktivierung an¬ 
legt, die Ausgabefunktion der Outputneu- 
rone also keine Identität darstellt, erhält 
man 

A w it n = g • o,; • (tn - on) = goiön (5.20) 

und ön entspricht dann der Differenz zwi¬ 
schen tn und on- 

Bei der Delta-Regel ist die Gewichtsände¬ 
rung aller Gewichte zu einem Ausgabeneu¬ 
ron 17 proportional 
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Ein. 1 

Ein. 2 

Ausgabe 

0 

0 

0 

0 

1 

1 

1 

0 

1 

1 

1 

0 


Tabelle 5.1: Definition des logischen XORs. 
Links die Eingabewerte, rechts die definierte 
Ausgabe. 



5 


> zur Differenz der aktuellen Aktivie¬ 
rung bzw. Ausgabe an bzw. on und 
dem dazugehörigen Teaching Input 
tn- Diesen Faktor möchten wir ön 
nennen, er wird auch „Delta“ gespro¬ 
chen. 


Abbildung 5.6: Skizze für ein Singlelayerpercep- 
tron, welches die XOR-Funktion darstellen soll - 
solch ein SLP kann es aber nicht geben. 


Delta-Regel 
nur für SLP 


Offensichtlich gilt die Delta-Regel jedoch 
nur für SLPs, da sich die Formel immer auf 
den Teaching Input bezieht und für innere 
Verarbeitungsschichten von Neuronen kein 
Teaching Input existiert. 


Wir verwenden hier die gewichtete Sum¬ 
me als Propagierungsfunktion, eine binäre 
Aktivierungsfunktion mit Schwellenwert 0 
und die Identität als Ausgabefunktion. II 
muss also in Abhängigkeit von i\ und 12 
den Wert 1 ausgeben, wenn gilt: 


5.2 Ein SLP kann nur linear 
separierbare Daten 
repräsentieren 


netn = + o i2 w i2 ,n > 0q ( 5 . 21 ) 

Gehen wir von einem positiven Gewicht 
Wi 2) n aus, so ist Ungleichung 5.21 äquiva¬ 
lent zu der Ungleichung 


Sei / die XOR-Funktion, welche zwei bi¬ 
näre Eingaben erwartet und eine binäre 
Ausgabe erzeugt (genaue Definition siehe 


Tabelle 5.1). 


len (Abb. 5.6). 


oq > —— {@n - o i2 w i2 n ) (5.22) 

Wh,n ~ ~ 

Bei konstantem Schwellenwert 0n stellt 


der rechte Teil der Ungleichung 5.22 


eine 


Versuchen wir, durch ein SLP mit zwei 
Eingabeneuronen i\,i 2 und einem Ausga¬ 
beneuron U die XOR-Funktion darzustel- 


Gerade durch ein von den möglichen Aus¬ 
gaben 0 { ] und Oi 2 der Eingabeneurone i\ 
und 12 aufgespanntes Koordinatensystem 


(Abb. 5.7 auf der rechten Seite) dar. 


84 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 
















dkriesel.com 


5.2 Lineare Separierbarkeit 


Für ein (wie für Ungleichung 5.22 auf der 



Abbildung 5.7: Lineare Separierung von n = 2 
Eingaben von Inputneuronen i 1 und i 2 durch 1- 
dimensionale Gerade. A und B bezeichnen die 
Zugehörigkeit der Eckpunkte zu den zu separie¬ 
renden Mengen der XOR-Funktion. 


linken Seite gefordertes) positives Wi 2 


feuert das Ausgabeneuron U bei den Ein¬ 
gabekombinationen, welche über der er¬ 
zeugten Geraden liegen. Für ein negatives 
Wi 2: n würde es für alle Eingabekombinatio¬ 
nen feuern, welche unter der Geraden lie¬ 
gen. Es sei an gemerkt, dass nur die vier 
Eckpunkte des Einheitsquadrates mögli¬ 
che Eingaben sind, da die XOR-Funktion 
nur binäre Eingaben kennt. 

Um das XOR-Problem zu lösen, müssen 
wir also die Gerade so drehen und ver¬ 
schieben, dass sie die Eingabemenge A = 
{(0,0), (1,1)} von der Eingabemenge B = 
{(0,1), (1, 0)} abgrenzt - was offensichtlich 
nicht möglich ist. 

Allgemein lassen sich die Eingabemöglich¬ 
keiten n vieler Eingabeneurone in einem ra- 
dimensionalen Würfel darstellen, der von 
einem SLP durch eine (ra—1)-dimensionale 


Hyperebene separiert wird (Abb. 5.8 auf 
der folgenden Seite) - nur Mengen, die 


durch eine solche Hyperebene trennbar, al¬ 
so linear separierbar sind, kann ein SLP 
klassifizieren. 

Es spricht leider viel dafür, dass der Pro¬ 
zentsatz der linear separierbaren Probleme 
mit steigendem n schnell abnimmt (siehe 


Tabelle 5.2 auf der folgenden Seite), was 


die Funktionalität des SLPs einschränkt - 
weiterhin sind Prüfungen auf lineare Sepa¬ 
rierbarkeit schwierig. Für schwierigere Auf¬ 
gaben mit mehr Eingaben benötigen wir 
also etwas Mächtigeres als das SLP. Das 
XOR-Problem stellt schon eine dieser Auf¬ 
gaben dar, braucht doch ein Perceptron, 
das die XOR-Funktion repräsentieren will, 


SLP kann 
nicht alles 


Wenige Aufg. 
linear 

separierbar 
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Abbildung 5.9: Neuronales Netz, welches die 
XOR-Funktion realisiert. Schwellenwerte stehen 
(soweit vorhanden) innerhalb der Neurone. 


Abbildung 5.8: Lineare Separierung von n = 3 
Eingaben von Inputneuronen i 1( i 2 und i 3 durch 
2-dimensionale Ebene. 


bereits eine verdeckte Ebene (Abb. 5.9). 


n 

Anzahl 

binärer 

Funktionen 

davon lin. 
separier¬ 
bar 

Anteil 

1 

4 

4 

100 % 

2 

16 

14 

87.5% 

3 

256 

104 

40.6% 

4 

65,536 

1,772 

2.7% 

5 

4.3 • 10 9 

94,572 

0 .002% 

6 

1.8 • 10 19 

5,028,134 

«0% 


Tabelle 5.2: Anzahl der Funktionen bezüglich 
n binärer Eingaben und Anzahl und Anteil der 
davon linear separierbaren Funktionen. Nach 


Zel94 


Wid89 


Was89 


5.3 Ein Multilayerperceptron 
enthält mehr trainierbare 
Gewichtsschichten 


Mächtiger als ein SLP ist ein Percep¬ 
tron mit zwei oder mehr trainierbaren 
Gewichtsschichten (Multilayerperceptron 
bzw. MLP genannt). Wie wir wissen, kann 
ein Singlelayerperceptron den Inputraum 
durch eine Hyperebene (bei zweidimen¬ 
sionalem Inputraum eine Geraden) teilen. 
Ein zweistufiges Perceptron (2 trainierba¬ 
re Gewichtsschichten, 3 Schichten Neuro¬ 
ne) kann konvexe Polygone klassifizieren, 
indem es diese Geraden weiterbehandelt, 


Mehr Ebenen 


86 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 

























dkriesel.com 


5.3 Das Multilayerperceptron 


zum Beispiel in der Form „erkenne Mus¬ 
ter, die über Gerade 1, unter Gerade 2 
und unter Gerade 3 liegen“. Wir haben al¬ 
so bildlich gesprochen ein SLP mit mehre¬ 
ren Ausgabeneuronen genommen und ein 
weiteres SLP „angehangen“ (oberer Teil 


der Abb. 5.10 auf der folgenden Seite) 


Ein Multilayerperceptron stellt einen uni¬ 
versellen Funktionsapproximator dar, 
wie aus dem Cybenko- Theorem hervorgeht 


|Cyb89 


Definition 5.7 (Multilayerperceptron). 
Perceptrons mit mehr als einer Schicht 
variabel gewichteter Verbindungen be¬ 
zeichnen wir als Multilayerperceptron 
(MLP). Ein n-Layer-Perceptron bzw. n- 
stufiges Perceptron hat dabei genau n va¬ 
riable Gewichtsschichten und n +1 Schich¬ 
ten Neurone (die Retina lassen wir außer 
Acht), die Neuronenschicht 1 ist hierbei 
die Schicht Eingabeneurone. 


Eine weitere trainierbare Gewichtsschicht 
verfährt genauso, nur eben mit den kon¬ 
vexen Polygonen, die nun wieder durch 
eine Gewichtsschicht aufeinander addiert, 
voneinander abgezogen oder mit anderen 
Operationen nachbearbeitet werden kön¬ 
nen (unterer Teil der Abb. 
folgenden Seite). 


Allgemein kann mathematisch bewiesen 
werden, dass schon ein Multilayerpercep¬ 
tron mit einer Schicht versteckter Neuro¬ 
ne eine Funktion mit endlich vielen Unste¬ 
tigkeitsstellen sowie deren erste Ableitung 
beliebig genau approximieren kann - lei¬ 
der ist der Beweis aber nicht konstruktiv, 
und so ist es uns selbst überlassen, die rich¬ 
tige Neuronenanzahl und Gewichte zu fin¬ 
den. 


5.10 auf der 


Im Folgenden möchten wir für verschie¬ 
dene Multilayerperceptrons eine Kurz¬ 
schreibweise verwenden, welche weite Ver¬ 
breitung findet: So ist ein zweistufiges Per¬ 
ceptron mit 5 Neuronen in der Eingabe¬ 
schicht, 3 Neuronen in der versteckten 
Schicht und 4 Neuronen in der Ausgabe¬ 
schicht ein 5-3-4-MLP. 


Da dreistufige Perceptrons durch Vereini¬ 
gung und Schnitt beliebig vieler konvexer 
Polygone Mengen beliebiger Form klassifi¬ 
zieren können, bringt uns eine weitere Stu¬ 
fe für Funktionsdarstellungen durch Neu¬ 
ronale Netze keinen Vorteil mehr. Vorsicht 
beim Literaturlesen: An der Schichtende¬ 
finition scheiden sich die Geister. Man¬ 
che Quellen zählen die Neuronenschichten, 
manche die Gewichtsschichten. Manche 
zählen die Retina hinzu, manche zählen 
die trainierbaren Gewichtsschichten. Man¬ 
che zählen (aus welchen Gründen auch 
immer) die Ausgabeneuronenschicht nicht 
mit. Ich habe hier die Definition gewählt, 
die meiner Meinung nach am meisten über 
die Lernfähigkeiten aussagt - und werde 
sie hier auch konsistent durchhalten. Noch¬ 
mal zur Erinnerung: Ein n-stufiges Percep¬ 
tron besitzt genau n trainierbare Gewichts¬ 
schichten. Eine Zusammenfassung, welche 
Perceptrons welche Art von Menge klassi¬ 
fizieren können, findet sich noch einmal in 
Tabelle 15.3 auf Seite 891 Wir werden uns 
jetzt der Herausforderung widmen, Percep¬ 
trons mit mehr als einer Gewichtsschicht 
zu trainieren. 


3-Schichten- 
MLP reicht 
aus 
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V 



V 



Abbildung 5.10: Wie wir wissen, repräsentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichts¬ 
schichten kann man mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Ver¬ 
wendung von 3 trainierbaren Gewichtsschichten kann man mit mehreren Polygonen beliebige Men¬ 
gen modellieren (unten). 
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5.4 Backpropagation of Error 


n 

klassifizierbare Menge 

1 

Hyperebene 

2 

konvexes Polygon 

3 

jede beliebige Menge 

4 

auch jede beliebige Menge, 


also kein weiterer Vorteil 


Tabelle 5.3: Hier wird dargestellt, mit welchem 
Perceptron sich Mengen welcher Art klassifizie¬ 
ren lassen, wobei das n die Anzahl der trainier¬ 
baren Gewichtsschichten darstellt. 


5.4 Backpropagation of Error 
verallgemeinert die 
Delta-Regel auf MLPs 


Im Folgenden möchte ich die Backpropa¬ 
gation of Error- Lernregel (Kurz: Back- 
propagation, Backprop oder auch BP) her¬ 
leiten und näher erläutern, mit der man 
mehrstufige Perceptrons, welche semilinea¬ 
re 3 Aktivierungsfunktionen besitzen, trai¬ 
nieren kann. Binäre Schwellenwertfunk¬ 
tionen und sonstige nicht-differenzierbare 
Funktionen werden nicht mehr unter¬ 
stützt, das macht aber nichts: Wir ha¬ 
ben ja gesehen, dass man die Fermifunkti- 
on bzw. den Tangens Hyperbolicus durch 
einen Temperatur-Parameter T der bi¬ 
nären Schwellenwertfunktion beliebig an¬ 
nähern kann. Weitgehend werde ich der 
Herleitung nach |Zel94 bzw. |MR86 fol¬ 
gen - ich möchte aber noch einmal dar¬ 
auf hinweisen, dass das Verfahren bereits 


früher von Paul Werbos in |Wer74 


pu- 


3 Semilineare Funktionen sind monoton und differen¬ 
zierbar - aber im Allgemeinen nicht linear. 


bliziert wurde, jedoch wesentlich weniger 
Leser fand als in (|MR86 . 


Backpropagation ist ein Gradientenab¬ 
stiegsverfahren (mit all den Stärken und 
Schwächen des Gradientenabstiegs), wobei 
die Fehlerfunktion Err(VF) hier sämtliche 
n Gewichte als Argument entgegennimmt 
(Abb. 5.5 auf Seite 80) und diese dem Aus¬ 
gabefehler zuordnet, also n-dimensional 
ist. Auf Err (IT) sucht man durch Gradien¬ 
tenabstieg einen Punkt geringen oder gar 
geringsten Fehlers. Backpropagation trai¬ 
niert also wie die Delta-Regel die Gewich¬ 
te des Neuronalen Netzes - und genau 
die Delta-Regel bzw. ihre Größe 8i für ein 
Neuron i wird durch Backpropagation von 
einer auf mehrere trainierbare Gewichts¬ 
schichten erweitert. 


5.4.1 Die Herleitung erfolgt völlig 
analog zur Deltaregel, aber 
mit allgemeinerem Delta 


Im Vorfeld sei definiert, dass sich die 
Netzeingabe der einzelnen Neurone i 
durch die gewichtete Summe ergibt. Wei¬ 
terhin seien o P: i, net Pi i etc. wie schon bei 


Herleitung der Delta-Regel definiert als 
die gewohnten Oj, net*, etc. unter dem 
Eingabemuster p, welches wir zum Trai¬ 
nieren verwenden. Auch sei die Ausgabe¬ 
funktion wieder die Identität, es gilt al¬ 
so Oi = /act(net Pj j) für jedes Neuron i. 
Da es sich um eine Verallgemeinerung der 
Delta-Regel handelt, benutzen wir wieder 
das gleiche Formelgerüst wie bei der Delta- 
Regel (Gleichung 5.20 auf Seite 83). Was 
wir verallgemeinern müssen, ist, wie schon 


Verallge¬ 
meinern 
von 5 
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Abbildung 5.11: Skizze der Lage unseres Neu¬ 
rons h im Neuronalen Netz. Es liegt in der 
Schicht H, Vorgängerschicht ist K, nachfolgen¬ 
de Schicht ist L. 


angedeutet, die Größe ö für jedes Neu¬ 
ron. 


Zunächst: Wo befindet sich das Neuron, 
für das wir ein ö errechnen wollen? Es 
liegt nahe, ein beliebiges inneres Neuron 
h zu wählen, welches eine Menge K von 
Vorgängerneuronen k sowie eine Menge 
L von Nachfolgerneuronen l besitzt, wel¬ 
che ebenfalls innere Neurone sind (Siehe 
Abb. 5.11). Es ist dabei irrelevant, ob die 
Vorgängerneurone bereits die Eingabeneu¬ 
rone sind. 


Wir führen nun das gleiche Spiel wie bei 
der Herleitung der Delta-Regel durch und 
spalten Funktionen durch die Kettenregel. 
Ich werde bei dieser Herleitung nicht ganz 


so ausführlich sein, das Prinzip ist aber 
dem der Delta-Regel ähnlich (die Unter¬ 
schiede liegen eben wie gesagt im verallge¬ 
meinerten ö). Wir leiten also zunächst die 
Fehlerfunktion Err nach einem Gewicht 
Wk,h ab. 

dE iT(wk t h) dErr dnet 

dw kth dnet k dw kjh 

=-S h 


Der erste Faktor der Gleichung 5.23 ist 
—öh, welches wir gleich noch betrachten 
wollen. Der zweite Faktor der Gleichung 
trägt im Zähler die Netzeingabe, also die 
gewichtete Summe, so dass wir diese auch 
direkt ableiten können. Es fallen wieder al¬ 
le Summanden der Summe weg bis auf den¬ 
jenigen, der w k ,h enthält. Dieser Summand 
heißt w k) h-Ok- Leitet man diesen ab, bleibt 
also der Output des Neurons k übrig: 


dnet h _ dZ keK w k ,hO k 
dw k)h dw kyh 

= o k 


(5.24) 

(5.25) 


Wie versprochen, behandeln wir nun das 
—öh der Gleichung 5.23, welches wir wie¬ 


der mit der Kettenregel aufspalten: 


dErr 
dnet ^ 

dErr doh 
do h dnet ft 


(5.26) 

(5.27) 


Die Ableitung des Outputs nach der 
Netzeingabe (der zweite Faktor in Glei¬ 
chung 5.27) kommt natürlich der Ablei- 
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5.4 Backpropagation of Error 


tung der Aktivierungsfunktion nach der 
Netzeingabe gleich: 

do h <9/act (net/O 


<9net h 


dneth 


/act'Cnetft) 


(5.28) 

(5.29) 


Analog leiten wir nun den ersten Faktor 


in Gleichung 5.27 auf der linken Seite ab 


Diese Stelle möge sich der Leser bitte gut 
durch den Kopf gehen lassen. Wir müssen 
uns hierfür nur klarmachen, dass die Ab¬ 
leitung der Fehlerfunktion nach dem Out¬ 
put einer inneren Neuronenschicht abhän¬ 
gig ist vom Vektor sämtlicher Netzeinga¬ 
ben der Nachfolgeschicht. Dies schlägt in 


Gleichung 5.30 zu Buche: 
<9Err _ 9Err(net Zl ,.. 
do h 


> ne Vi) 


do h 


(5.30) 


Nach der Definition der mehrdimensiona¬ 
len Kettenregel folgt dann sofort die Glei¬ 
chung |5.31| 

9neL' 


öErr ^ / <9Err 


do h 


leL 


dneti doh 


(5.31) 


Die Summe in Gleichung |5.31| besitzt 


zwei Faktoren. Mit diesen Faktoren, sum¬ 
miert über die Nachfolgeschicht L, wol¬ 
len wir uns nun beschäftigen. Wir rechnen 
den zweiten Faktor in der folgenden Glei¬ 
chung [5733 einfach aus: 

dneti _ dJ2heH w h,i ■ o h 


do h 


do h 


= w h ,i 


(5.32) 

(5.33) 


Analog gilt für den ersten Faktor nach der 
Definition unseres ö: 

9Err 
<9net/ 


= 5 t 


(5.34) 


Wir setzen nun ein: 


<9Err 

do h 


h w h,i 

leL 


(5.35) 


Eine graphisch aufbereitete Version der ö- 
Verallgemeinerung mit allen Aufspaltun¬ 


gen findet sich in Abbildung 5.12 auf der 
folgenden Seite 


Dem Leser wird bereits aufgefallen sein, 
dass einige Zwischenergebnisse umrahmt 
wurden. Umrahmt wurden genau die Zwi¬ 
schenergebnisse, die in der Gewichtsver- 
änderung von w^.h einen Faktor ausma¬ 
chen. Führt man die obigen Gleichungen 
mit den umrahmten Zwischenergebnissen 
zusammen, so ergibt sich die gesuchte Ge¬ 
wichtsänderung A Wk,h zu 


A w k ,h = V°köh mit (5.36) 

4 = /act(neth) - ^2{öiw hj i) 
leL 

- natürlich nur für den Fall, dass h ein 
inneres Neuron ist (sonst gibt es ja auch 
keine Nachfolgeschicht L ). 

Den Fall, dass h Ausgabeneuron ist, haben 
wir ja schon in der Herleitung der Delta- 
Regel behandelt. Insgesamt ergibt sich al¬ 
so unsere Verallgemeinerung der Delta- 
Regel, genannt Backpropagation of Error , 
zu: 

A w k ,h = VOköh mit 

^ f /act( net /i) • (th ~ Vh) (h außen) 
h \ /act(uet/i) • tieL(8lWh,l) 0 innen) 

(5.37) 

Im Unterschied zur Delta-Regel ist also die 
Behandlung des <5, je nachdem, ob es sich 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


91 






























Kapitel 5 Das Perceptron, Backpropagation und seine Varianten 


dkriesel.com 


S h 



/act( n eth) 


9Err 



Si 


d E h cH w h,r°h 

do h 


Wh,l 


Abbildung 5.12: Graphische Darstellung der Gleichsetzungen (durch langgezogene Gleichzeichen) 
und Kettenregel-Aufspaltungen (durch Pfeile) im Rahmen der Herleitung von Backpropagation. Die 
Blätter des Baumes spiegeln die in der Herleitung umrahmten Endergebnisse aus der Verallgemei¬ 
nerung des 5 wieder. 
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5.4 Backpropagation of Error 


Teach. Input 
für äußere 
Gew.-Schicht 


bei h um ein Ausgabe- oder aber inneres 
(also verdecktes) Neuron handelt, verschie¬ 
den: 

1. Ist h Ausgabeneuron, so gilt 

fip,h = /act( ne ^p,/i) ■ ( tp,h ~ Up,h ) 

(5.38) 

Das Gewicht w^.h von k nach h wird 
also unter unserem Übungsmuster p 
proportional zu 

> Lernrate rj, 

> Ausgabe o P) k des Vorgängerneu¬ 
rons k, 

> Gradient der Aktivierungs¬ 

funktion an der Stelle der 
Netzeingabe des Nach¬ 
folgerneurons /a Ct ( netp^) 

und 

> Differenz aus Teaching Input t Py h 
und Ausgabe y Pi h des Nachfolger¬ 
neurons h 

geändert. In diesem Fall arbeitet 
Backpropagation also auf zwei Neu¬ 
ronenschichten, der Ausgabeschicht 
mit dem Nachfolgerneuron h und der 
Schicht davor mit dem Vorgängerneu¬ 
ron k. 

2. Ist h inneres, verdecktes Neuron, so 
gilt 


drei Schichten arbeitet. Hierbei ist 
das Neuron k der Vorgänger der zu 
ändernden Verbindung mit dem Ge¬ 
wicht Wk,hi das Neuron h der Nach¬ 
folger der zu ändernden Verbindung, 
und die Neurone l liegen in der 
Schicht nach dem Nachfolgerneuron. 
Das Gewicht Wk,h von k nach h wird 
also unter unserem Ubungsmuster p 
proportional zu 

D> Lernrate rj, 

D> Ausgabe des Vorgängerneurons 

Op,kt 

D> Gradient der Aktivierungs¬ 
funktion an der Stelle der 
Netzeingabe des Nachfolgerneu- 
r °ns /' ct (net M ), 

D> sowie, und hier liegt der Unter¬ 
schied, aus der gewichteten Sum¬ 
me der Gewichtsveränderungen 
zu allen Neuronen, die h nachfol- 
gen , E igl(ö p ,i ■ w h ,i) 

geändert. 

Definition 5.8 (Backpropagation). Fas¬ 
sen wir die Formeln 15.381 und 15.391 zusam¬ 
men, so erhalten wir folgende Gesamtfor¬ 
mel für Backpropagation (die Bezeich¬ 
ner p werden der Übersichtlichkeit halber 
weggelassen): 


fip,h — /act( ne Ü,/i) ■ ■ w h,l) 

leL 

(5.39) 

An dieser Stelle sei ausdrücklich er¬ 
wähnt, dass Backpropagation nun auf 


Nw k ,h. = V°köh mit 

ö = | /act( ne ü) • (4 - Vh) {h außen) 
h \ /act( n et/i) • E ieL(5iw h> i) (h innen) 

(5.40) 


Rückwärts¬ 
propagierung 
für innere 
Schichten 
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SIMIPE: Eine online-Variante von 

Backpropagation ist in der Methode 
trainBackpropagationOfError der Klasse 
NeuralNetwork implementiert. 


Delta-Regel aus Backpropagation entwi¬ 
ckeln, um das Verständnis für beide Re¬ 
geln noch etwas zu schärfen. Wir haben 
gesehen, dass Backpropagation durch 


Offensichtlich ist also, dass Backpropa¬ 
gation zunächst die hinterste Gewichts¬ 
schicht direkt mit dem Teaching Input be¬ 
arbeitet und sich anschließend ebenenwei¬ 
se unter Berücksichtigung der jeweils vor¬ 
hergehenden Gewichtsänderungen weiter 
nach vorn arbeitet. Der Teaching Input 
hinterlässt also Spuren in sämtlichen Ge¬ 
wichtsschichten. Ich beschreibe hier gerade 
den ersten Teil (Delta-Regel) und zweiten 
Teil von Backpropagation (Verallgemeiner¬ 
te Delta-Regel auf mehr Schichten) in ei¬ 
nem Zug, was vielleicht der Sache, nicht 
jedoch der Forschung daran gerecht wird. 
Der erste Teil ist offensichtlich, das wer¬ 
den wir gleich im Rahmen einer mathema¬ 
tischen Spielerei sehen. Zwischen dem ers¬ 
ten und zweiten, rekursiven Teil liegen je¬ 
doch Jahrzehnte an Entwicklungszeit und 
-arbeit, denn wie bei vielen bahnbrechen¬ 
den Erfindungen merkte man auch dieser 
erst nach der Entwicklung an, wie ein¬ 
leuchtend sie eigentlich ist. 


A w k ,h = SOkdh mit 

/' ct ( netft) • {t h - y h ) ( h außen) 
fLt( net h) ■ J2ieL( S l w h,l) (h innen) 

(5.41) 

definiert ist. Da wir sie nur für einstufi¬ 
ge Perceptrons verwenden, fällt der zwei¬ 
te Teil von Backpropagation (heller darge¬ 
stellt) ersatzlos weg, wir erhalten also: 

A w k)h = yo k ö h mit 
ö h = /act( n eth) • ( t h ~ o h ) 

Weiterhin wollen wir nur lineare Aktivie¬ 
rungsfunktionen verwenden, so dass f' act 
(heller dargestellt) konstant ist. Konstan¬ 
ten lassen sich bekanntlich zusammenfas¬ 
sen, wir fassen also die konstante Ablei¬ 
tung /' ct und die (mindestens pro Lern¬ 
zyklus konstante) Lernrate 77 (auch heller 
dargestellt) direkt in zusammen. Es er¬ 
gibt sich also: 

A w k ,h = Vo k 5 h = 7jo k • ( t h - o h ) (5.43) 


Backprop 

erweitert 

Delta-Regel 


5.4.2 Der mathematische Rückweg: 
Reduktion von 
Backpropagation auf 
Delta-Regel 

Wie oben erläutert, ist die Delta-Regel ein 
Spezialfall von Backpropagation für ein¬ 
stufige Perceptrons und lineare Aktivie¬ 
rungsfunktionen - diesen Umstand möch¬ 
te ich hier kurz näher erläutern und die 


Dies entspricht genau der Definition der 
Delta-Regel. 

5.4.3 Die Wahl der Lernrate hat 
enormen Einfluss auf den 
Lernprozeß 

Wie mittlerweile vielfach gesehen, ist die 
Gewichtsänderung in jedem Fall proportio¬ 
nal zur Lernrate r]. Die Wahl von ist also 
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5.5 Resilient Backpropagation 


Wie schnell 
wird gelernt? 


v 


sehr entscheidend für das Verhalten von 
Backpropagation und allgemein für Lern¬ 
verfahren. 

Definition 5.9 (Lernrate). Die Ge¬ 
schwindigkeit und Genauigkeit eines Lern¬ 
verfahrens ist immer steuerbar von und 
proportional zu einer Lernrate , welche als 
77 geschrieben wird. 

Wird 77 zu groß gewählt, so sind die Sprün¬ 
ge auf der Fehlerfläche zu groß und es 
könnten z.B. enge Täler, also gute Werte, 
einfach übersprungen werden, zudem be¬ 
wegt man sich sehr unkontrolliert über die 
Fehlerober fläche. Das Wunschmittel ist al¬ 
so ein kleines 77 , was aber einen riesigen, oft 
inakzeptablen Zeitaufwand mit sich brin¬ 
gen kann. Die Erfahrung zeigt, dass gute 
Werte für die Lernrate im Bereich 


nicht mehr genau, eine kleinere ist aufwän¬ 
diger, lernt aber genauer. Also verringert 
man einmal oder mehrere Male die Lernra¬ 
te um eine Größenordnung — während des 
LernVorgangs. 

Ein beliebter Fehler (der obendrein noch 
auf den ersten Blick sehr elegant wirkt) 
ist, die Lernrate kontinuierlich sinken zu 
lassen: Hier kommt es sehr leicht vor, dass 
der Abfall der Lernrate größer ist als die 
Steigung eines Hügels der Fehlerfunktion, 
die wir gerade erklimmen - was zur Fol¬ 
ge hat, dass wir an dieser Steigung ein¬ 
fach hängen bleiben. Lösung: Lieber wie 
beschrieben die Lernrate stufenweise ver¬ 
ringern. 

5.4.3.2 Verschiedene Schichten - 
verschiedene Lernraten 


0.01 < 77 < 0.9 

liegen. Die Wahl von 77 hängt maßgeblich 
von Problem, Netz und Trainingsdaten ab, 
so dass man kaum praktische Wahlhilfen 
geben kann. Beliebt ist jedoch, mit einem 
relativ großen 77 , z.B. 0.9, den Anfang des 
Lernens zu machen und 77 dann langsam 
bis auf z.B. 0.1 zu verringern, während für 
einfachere Probleme 77 oft einfach konstant 
gehalten werden kann. 


Je weiter man sich während des Lernvor¬ 
ganges von der Ausgabeschicht wegbewegt, 
um so langsamer lernt Backpropagation 
- es ist also eine gute Idee, für die Ge¬ 
wichtsschichten nahe der Eingabeschicht 
eine größere Lernrate zu nehmen als für 
diejenigen nahe der Ausgabeschicht. Der 
Unterschied kann hier ruhig bis zu einer 
Größenordnung betragen. 


5.4.3.1 Variation der Lernrate über die 
Zeit 

Weiteres Stilmittel beim Training kann ei¬ 
ne variable Lernrate sein: Eine große 
Lernrate lernt am Anfang gut, aber später 


5.5 Resilient Backpropagation 
ist eine Erweiterung von 
Backpropagation of Error 

Gerade haben wir zwei Backpropagation¬ 
spezifische Eigenschaften angesprochen, 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


95 




Kapitel 5 Das Perceptron, Backpropagation und seine Varianten 


dkriesel.com 


Eine Lern¬ 
rate pro 
Gewicht 

Vi,j 

Lernraten¬ 

einstellung 

automatisch 


die hin und wieder zum Problem werden 
können (zusätzlich zu denjenigen, die Gra¬ 
dientenabstiege ohnehin schon mit sich 
bringen): Zum einen kann der Benutzer 
von Backpropagation eine schlechte Lern¬ 
rate wählen, und zum anderen lernt Back¬ 
propagation immer langsamer, je weiter 
die Gewichte von der Ausgabeschicht ent¬ 
fernt sind. Aus diesem Grund haben Mar¬ 
tin Riedmiller et al. Backpropagation 
weiterentwickelt, und ihre Variante Resi- 
lient Backpropagation (kurz: Rprop ) 
getauft |RB93, Rie94 . Ich möchte Back¬ 
propagation und Rprop hier gegenüber¬ 
stellen, ohne ausdrücklich eine Variante 
als „besser“ zu deklarieren. Bevor wir uns 
nun wirklich mit Formeln auseinanderset¬ 
zen, wollen wir die zwei primären Ideen 
hinter Rprop (und ihre Folgen) erst ein¬ 
mal umgangsprachlich dem schon bekann¬ 
ten Backpropagation gegenüberstellen. 


Lernrate: Backpropagation benutzt stan¬ 
dardmäßig eine Lernrate 77 , die vom 
Benutzer gewählt wird, und für das 
ganze Netz gilt. Sie bleibt statisch, 
bis sie manuell geändert wird. Die 
Nachteile dieser Vorgehensweise ha¬ 
ben wir schon erforscht. Rprop ver¬ 
folgt hier einen komplett anderen An¬ 
satz: Es gibt keine globale Lernra¬ 
te. Erstens hat jedes einzelne Ge¬ 
wicht Wi j seine eigene Lernrate rjij, 
und zweitens werden diese Lernraten 
nicht vom Benutzer gewählt, sondern 
von Rprop selbst festgelegt. Drittens 
bleiben die Gewichtsänderungen nicht 
statisch, sondern werden von Rprop 
für jeden Zeitschrift angepasst. Um 
die zeitliche Änderung miteinzubezie- 


hen, nennen wir sie korrekterweise 
rji } j(t). Dies ermöglich nicht nur ge¬ 
zielteres Lernen, auch das Problem 
des schichtweise verlangsamten Ler¬ 
nens wird auf elegante Weise gelöst. 


Gewichtsänderung: In Backpropagation 
werden die Gewichte proportional 
zum Gradienten der Fehlerfunktion 
geändert. Das ist auf den ersten Blick 
wirklich intuitiv, allerdings überneh¬ 
men wir so jegliche Zerklüftung, die 
die Fehleroberfläche aufweist, mit in 
die Gewichtsänderung. Ob das immer 
sinnvoll ist, darf zumindest angezwei- 
felt werden. Auch hier geht Rprop an¬ 
dere Wege: Der Betrag der Gewichts¬ 
änderung A u>i t j entspricht einfach di¬ 
rekt der zugehörigen, automatisch an¬ 
gepassten Lernrate rjij. So ist die 
Gewichtsänderung nicht proportional 
zum Gradienten, nur noch das Vorzei¬ 
chen des Gradienten geht in die Ge¬ 
wichtsänderung mit ein. Bis jetzt wis¬ 
sen wir noch nicht, auf welche Weise 
die rjij zur Laufzeit angepasst werden, 
aber es sei vorweggenommen, dass der 
Ergebnisprozess deutlich weniger zer¬ 
klüftet aussieht als eine Fehlerfunkti¬ 
on. 


Gegenüber Backprop wird also der 
Gewichts-Updateschritt ersetzt, und ein 
zusätzlicher Lernraten-Anpassungsschritt 
hinzugefügt. Wie werden diese Ideen nun 
genau umgesetzt? 


Viel gleich¬ 
mäßigeres Lernen 
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5.5 Resilient Backpropagation 


Gradient 
bestimmt nur 
Richtung des 
Updates 


5.5.1 Gewichtsänderungen sind 
nicht proportional zum 
Gradienten 

Betrachten wir zunächst die Gewichtsän¬ 
derung. Wir haben schon bemerkt, dass 
die gewichtsspezifischen Lernraten direkt 
als Beträge der Gewichtsänderungen für 
ihr jeweiliges Gewicht herhalten. Bleibt 
die Frage, woher das Vorzeichen kommt 
- und das ist eine Stelle, bei welcher der 
Gradient ins Spiel kommt. Wie schon bei 
der Herleitung von Backpropagation, lei¬ 
ten wir die Fehlerfunktion Err(VF) nach 
den einzelnen Gewichten Wij ab und erhal¬ 
ten so Gradienten ■ Jetzt kommt 

der große Unterschied: Anstatt den Betrag 
des Gradienten multiplikativ mit in die 
Gewichtsänderung einfließen zu lassen, be¬ 
trachten wir nur das Vorzeichen des Gra¬ 
dienten. Der Gradient bestimmt also nicht 
mehr die Stärke, sondern nur noch die 
Richtung der Gewichtsänderung. Ist das 
Vorzeichen des Gradienten positiv, 

müssen wir das Gewicht Wij verringern. 
Vom Gewicht wird also rjij abgezogen. Ist 
das Vorzeichen des Gradienten hingegen 
negativ, so bedarf das Gewicht einer Ver¬ 
stärkung, bekommt also r/ij addiert. Ist 
der Gradient genau 0, passiert einfach gar 
nichts. Wir gießen diese umgangssprachli¬ 
che Beschreibung nun in eine Formel. Wir 
fügen jeweils ein (t) an, um darzustellen, 
dass alles im gleichen Zeitschritt passiert. 
Das ist unübersichtlicher, aber trotzdem 
wichtig, denn gleich werden wir noch ei¬ 
ne weitere Formel betrachten, die über ver¬ 
schiedene Zeitschritte operiert. Dafür kür¬ 
zen wir den Gradienten ab: g = a ^ rr( Jt’). 


Definition 5.10 (Gewichtsänderung in 
Rprop). 

wenn g(t) > 0 
+Vi,j(t), wenn g(t) < 0 
0 sonst. 

(5.44) 

Wir wissen nun, wie die Gewichte an sich 
geändert werden - jetzt bleibt noch die Fra¬ 
ge, auf welche Weise die Lernraten selbst¬ 
ständig angepasst werden. Zuletzt, wenn 
wir das Gesamtsystem verstanden haben, 
klären wir dann die verbleibenden Klei¬ 
nigkeiten wie Initialisierungswerte und ein 
paar konkrete Konstanten. 

5.5.2 Viele dynamisch angepasste 
Lernraten statt einer 
statischen 

Um die Lernraten r/ij anzupassen, müssen 
wir wieder die zugehörigen Gradienten g 
betrachten, und zwar über zwei Zeitschrit¬ 
te hinweg: Den gerade vergangenen (t — 1) 
und den jetzigen (t). Wieder ist für uns 
nur das Vorzeichen des Gradienten wichtig, 
und wir müssen uns nun fragen: Was kann 
mit dem Vorzeichen über zwei Schritte hin¬ 
weg passieren? Es kann gleich bleiben, und 
es kann wechseln. 

Wechselt das Vorzeichen von g(t — 1) zu 
g(t), so haben wir im Gradienten ein lo¬ 
kales Minimum übersprungen, das letzte 
Update ist also zu groß gewesen, folglich 
muss rjij(t) im Vergleich zu dem vorheri¬ 
gen — 1) verkleinert werden, die Su¬ 
che muss genauer werden. Mathematisch 
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ausgedrückt: Wir erhalten ein neues (t ), 
in dem wir das alte r]ij(t — 1) mit einer 
Konstante rf multiplizieren, die zwischen 
1 und 0 liegt. In diesem Falle wissen wir 
ja, dass im letzten Zeitschritt (t — 1) etwas 
schiefgelaufen ist - also wird zusätzlich 
noch das Gewichtsupdate für das Gewicht 
Wij im Zeitschrift (t) hart auf 0 gesetzt, 
also gar nicht erst durchgeführt (nicht in 
der folgenden Formel angegeben). 


aber die saubere mathematische Motivati¬ 
on, und genau diese benötigen wir hier. 

5.5.3 Uns fehlen noch ein paar 
Kleinigkeiten, um Rprop in 
der Praxis zu verwenden 

Es bleiben noch ein paar kleinere Fragen 
offen, nämlich 


V 


t 


Rprop lernt 
ausschließlich 
offline 


Bleibt das Vorzeichen aber gleich, kann 
eine (behutsame!) Vergrößerung von r/ ? ;j 
stattfinden, um über flache Bereiche der 
Fehlerfunktion hinwegzukommen. Hier er¬ 
halten wir unser neues in dem wir 

das alte — 1) mit einer Konstante rf 
multiplizieren, die größer als 1 ist. 

Definition 5.11 (Anpassung der Lernra¬ 
ten in Rprop). 

[rflirft - i), g{t-l)g(t)>0 

) = l - 1), g(t - 1 )g(t) < 0 

rflij(t — 1) sonst. 

(5.45) 

Achtung: Daraus folgt auch, dass Rprop 
ausschließlich für Offline-Lernen konzi¬ 
piert ist, denn wenn die Gradienten 
nicht eine gewisse Kontinuität aufweisen, 
bremst das Lernverfahren auf niedrigstes 
Tempo ab (und verweilt dort). Wer onli¬ 
ne lernt, wechselt ja - salopp gesprochen - 
mit jeder neuen Epoche die Fehlerfunktion, 
da diese nur auf jeweils ein Trainingsmus¬ 
ter bezogen ist. Das geht zwar bei Back¬ 
propagation oft sehr gut und sogar sehr 
oft schneller als die Offline-Variante, wes¬ 
halb es dort gerne eingesetzt wird. Es fehlt 


1. Wie groß sind rf und rf (wie stark 
werden Lernraten verstärkt, bzw. ab¬ 
geschwächt)? 

2. Wie groß ist r/,;.j(0) (wie werden die 
gewichtsspezifischen Lernraten initia¬ 
lisiert)? 4 

3. Wie sind die oberen und unteren 
Grenzen 77 min bzw. r/ max für die r/ 8J 
gesetzt? 

Die Antworten auf diese Fragen handeln 
wir nun mit kurzer Motivation ab. Der In¬ 
itialisierungswert für die Lernraten sollte 
irgendwo in der Größenordnung der Ge¬ 
wichtsinitialisierung liegen, und so hat sich 
bewährt, = 0.1 zu setzen. Die Au¬ 

toren der Rprop-Veröffentlichung beschrei¬ 
ben einleuchtenderweise, dass dieser Wert 
- solange er positiv gesetzt wird und kei¬ 
nen exorbitant hohen Betrag hat - eher 
unkritisch zu sehen ist, da er ohnehin 
schnell von der automatischen adaption 
überschrieben wird. 

Ebenso unkritisch ist ry max , für das oh¬ 
ne weitere mathematische Begründung ein 

4 Protipp: Da die rjij ausschließlich durch Multipli¬ 
kation verändert werden, ist 0 als Initialisierungs¬ 
wert eher suboptimal :-) 


7?min 

JJmax 
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5.6 Mehr Variationen und Erweiterungen zu Backpropagation 


Rprop sehr 
gut für 
tiefe Netze 


Wert von 50 empfohlen und über die meis¬ 
te weitere Literatur verwendet wird. Man 
kann diesen Parameter niedriger setzen, 
um ausschließlich sehr vorsichtige Update¬ 
schritte zu erlauben. Kleine Updateschrit¬ 
te sollten in jedem Fall erlaubt sein, also 
setzen wir 77 min = 10 ~ 6 . 

Bleiben die Parameter rf' und r/'K Fangen 
wir mit r/^ an: Wenn dieser Wert zum Ein¬ 
satz kommt, haben wir ein Minimum über¬ 
sprungen, von dem wir nicht genau wis¬ 
sen, wo auf der übersprungenen Strecke 
es liegt. Analog zur Vorgehensweise der bi¬ 
nären Suche, wo das Zielobjekt ebenfalls 
oft übersprungen wird, gehen wir davon 
aus, es läge in der Mitte der übersprunge¬ 
nen Strecke. Also müssen wir die Lernrate 
halbieren, weswegen sich ein 77 ^ = 0.5 ka¬ 
nonischerweise anbietet. Wenn der Wert 
77 ^ zum Einsatz kommt, sollen Lernraten 
umsichtig vergrößert werden, hier können 
wir also nicht die binäre Suche generalisie¬ 
ren und einfach den Wert 2.0 verwenden, 
sonst besteht das Lernraten-Update nach¬ 
her fast nur noch aus Richtungswechseln. 
Problemunabhängig hat sich ein Wert von 
77 ^ = 1.2 als erfolgsversprechend erwie¬ 
sen, wobei leichte Änderungen die Konver¬ 
genzgeschwindigkeit nicht signifikant be¬ 
einflusst haben. So konnte auch dieser 
Wert einfach als Konstante gesetzt wer¬ 
den. 

Mit fortschreitender Rechengeschwindig¬ 
keit der Computer ist eine immer größe¬ 
re Verbreitung von sehr tiefen Netzwer¬ 
ken (Deep networks ), also Netzwerken 
mit sehr vielen Schichten, zu beobachten. 
Für solche Netze ist Rprop dem originalen 
Backpropagation unbedingt vorzuziehen, 


weil Backprop, wie schon angedeutet, auf 
Gewichten fern der Ausgabeschicht sehr 
langsam lernt. Bei Problemen mit kleine¬ 
ren Schichtenzahlen würde ich empfehlen, 
das verbreitete Backpropagation (sowohl 
mit offline- als auch mit online-Lernen) 
und das weniger verbreitete Rprop zu¬ 
nächst gleichwertig zu testen. 

SIMIPE: Resilient Backpropagation 

wird in Snipe über die Methode 
trainResilientBackpropagation der 
Klasse NeuralNetwork unterstützt. Wahl¬ 
weise kann man hier auch noch eine 
weitere Verbesserung zu Resilient Propa¬ 
gation zuschalten, die in dieser Arbeit 
jedoch nicht weiter behandelt wird. Für 
die verschiedenen Rprop-Parameter finden 
sich Getter und Setter. 

5.6 Backpropagation wurde 
auch außerhalb von 
Rprop vielfach erweitert 
und variiert 

Backpropagation ist vielfach erweitert wor¬ 
den - viele dieser Erweiterungen kann man 
einfach als optionale Features von Back¬ 
propagation implementieren, um größeren 
Testspielraum zu haben. Ich möchte im 
folgenden einige von ihnen kurz beschrei¬ 
ben. 

5.6.1 Masseträgheit zum 

Lernprozeß hinzufügen 

Angenommen, wir fahren auf Skiern einen 
steilen Hang hinab - was hindert uns, am 
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Trägheits- 

Moment 


Rande des Hangs zum Plateau sofort ste¬ 
henzubleiben? Genau - der Schwung. Der 
Momentum-Term |RHW86b sorgt bei 


Backpropagation dafür, dass der Schritt¬ 
weite eine Art Trägheitsmoment ( Mo- 
mentum ) hinzugefügt wird (Abb. 5.13), 


indem jeder neuen Gewichtsänderung im¬ 
mer ein Anteil der vorherigen Änderung 
hinzuaddiert wird: 


(ApUJjj) jetzt — V°p,i^P,j -p Oi • ) vorher 

Diese Schreibweise dient natürlich nur 
dem besseren Verständnis; in der Regel 
wird, wie bereits durch den Zeitbegriff de¬ 
finiert, der Zeitpunkt des aktuellen Durch¬ 
laufs durch (t) bezeichnet, der vorheri¬ 
ge Durchlauf wird dann durch (f — 1) 
gekennzeichnet, was man sukzessive fort¬ 
führt. Wir kommen also zur formalen De¬ 
finition des Momentum-Terms: 



Abbildung 5.13: Wir möchten den Gradienten¬ 
abstieg durchführen wie ein Skifahrer seine Ab¬ 
fahrt, der wohl kaum sofort an der Grenze zum 
Plateau anhalten wird. 


Definition 5.12 (Momentum-Term). 
Die Variation von Backpropagation durch 
den Momentum- Term ist wie folgt defi¬ 
niert: 

A Wij(t) = rjOiöj + a • A Wij(t — 1) (5.46) 


seltene Fehler des Verlassens guter Mini¬ 
ma durch den Momentum-Term häufiger 
auf - so dass auch hier wieder keine Pa¬ 
tentlösung gegeben ist (wir gewöhnen uns 
ja langsam an diese Aussage). 


a 


Wir beschleunigen also auf Plateaus (ver¬ 
hindert Quasi-Stillstand auf Plateaus) und 
bremsen auf zerklüfteten Flächen (gegen 
Oszillationen). Weiterhin kann man den 
Effekt der Trägheit über den Vorfaktor 
a variieren, übliche Werte befinden sich 
zwischen 0.6 und 0.9. Außerdem macht 
das Momentum den positiven Effekt mög¬ 
lich, dass unser Skifahrer in einem Mini¬ 
mum ein paar mal hin- und herpendelt, 
und schlussendlich in dem Minimum lan¬ 
det. Leider tritt trotz des schönen Ausse¬ 
hens im eindimensionalen der ansonsten 


5.6.2 Flat spot elimination 

verhindert, dass sich Neurone 
verfangen 

Es ist zu beachten, dass sowohl beim Tan¬ 
gens Hyperbolicus sowie der Fermifunktion 
die Ableitung außerhalb unmittelbarer Nä¬ 
he zu 0 fast 0 ist. Dieser Umstand führt 
dazu, dass sich Neurone nur schwer wie¬ 
der aus den Grenzwerten der Aktivierung 
(flat spots ) entfernen können, was die Lern¬ 
zeit extrem verlängern kann. Diesem Pro¬ 
blem kann durch Modifikation der Ablei- 


Neurone 
fahren sich 
fest 
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5.6 Mehr Variationen und Erweiterungen zu Backpropagation 


tung, z.B. Addition einer Konstanten (z.B. 
0.1), begegnet werden, was als Flat spot 
elimination oder - umgangssprachlicher 
Zuckern bezeichnet wird. 


Eine interessante Beobachtung ist, dass 
man auch schon reinen Konstanten als Ab¬ 
leitungen Erfolge erzielt hat 


Fah88 


Auch 


die schon in Abschnitt 13.2.6 auf Seite 39l 
erwähnte schnelle Appoximation des Tan¬ 
gens Hyperbolicus von Anguita et al. be¬ 
nutzt in den äußeren Bereichen der eben¬ 
falls approximierten Ableitung eine kleine 
Konstante. 


5.6.3 Die zweite Ableitung kann 
mit einbezogen werden 


Second Order Backpropagation nach 
David Parker |Par87 verwendet auch 
den zweiten Gradienten, also die zweite 
mehrdimensionale Ableitung der Fehler¬ 
funktion, um genauere Schätzungen der 
korrekten A Wi 7 - zu erhalten. Höhere Ab¬ 


leitungen verbessern die Schätzungen nur 
noch selten. So braucht man weniger Trai¬ 
ningszyklen, diese sind aber weitaus re¬ 
chenaufwändiger . 


Bei Methoden höherer Ordnung im All¬ 
gemeinen werden weitere Ableitungen (al¬ 
so Hessesche Matrizen, da die Funktionen 
mehrdimensional sind) verwendet. Erwar¬ 
tungsgemäß reduzieren die Verfahren die 
Anzahl der Lernepochen, machen die ein¬ 
zelnen Epochen aber signifikant rechenauf¬ 
wändiger - so dass am Ende die Lernzeit 
oft sogar länger ist als mit Backpropaga¬ 
tion. 


Quickpropagation 

verwendet die zweite Ableitung 


Das Lernverfahren 
|Fah88 


der Fehlerfunktion und sieht die Fehler¬ 
funktion lokal als eine Parabel an, de¬ 
ren Scheitelpunkt wir analytisch bestim¬ 
men und wohin wir direkt springen. Die¬ 
ses Lernverfahren ist also ein Verfahren 
zweiter Ordnung. Es funktioniert natür¬ 
lich nicht bei Fehleroberflächen, die nicht 
lokal durch eine Parabel approximierbar 
sind (ob das der Fall ist, kann man natür¬ 
lich nicht immer direkt sagen). 


5.6.4 Weight Decay: Große 

Gewichte können bestraft 
werden 

Bei der Modifikation Weight Decay (zu 
Deutsch: Dämpfung der Gewichte) von 
Paul Werbos ||Wer88| wird der Fehler 
um einen Term erweitert, der große Ge¬ 
wichte bestraft. Der Fehler unter Weight 
Decay 

Err WD 

steigt also nicht nur mit dem eigentlichen 
Fehler, sondern auch mit dem Quadrat 
der Gewichte - was zur Folge hat, dass 
das Netz beim Lernen die Gewichte klein 
hält. 

Err WD = Err + ß ■ * ( w ) 2 (547) 

1 w£W 

■ V 

Bestrafung 

Dies ist von der Natur inspiriert, in der 
synaptische Gewichte ebenfalls nicht un¬ 
endlich stark werden können. Klein gehal¬ 
tene Gewichte sorgen außerdem häufig da¬ 
für, dass die Fehlerfunktion weniger starke 


Err WD 


Gewichte 
klein halten 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


101 
















Kapitel 5 Das Perceptron, Backpropagation und seine Varianten 


dkriesel.com 


Schwankungen beinhaltet, was das Lernen 
einfacher und kontrollierter macht. 

Der Vorfaktor | ist wieder aus einfacher 
Pragmatik heraus entstanden. Der Faktor 
ß regelt die Stärke der Bestrafung: Werte 
von 0.001 bis 0.02 werden hier oft verwen¬ 
det. 


5.6.5 Das Netz zurechtstutzen: 
Pruning und Optimal Brain 
Damage 


Es gibt noch viele weitere Variationen 
von Backprop bzw. ganze Bücher eigens 
hierüber - da mein Ziel aber ist, einen 
Überblick über Neuronale Netze zu bieten, 
möchte ich hier nur die obigen als Anstoß 
zum Weiterlesen nennen. 

Es ist bei manchen dieser Erwei¬ 
terungen offensichtlich, dass sie 
nicht nur bei FeedForward-Netzen 
mit Backpropagation-Lernverfahren 

angewendet werden können. 


Netz 

stutzen 


Wenn wir das Weight Decay lange genug 
durchgeführt haben und feststellen, dass 
bei einem Neuron im Eingabelayer alle 
Nachfolgegewichte Null oder fast Null sind, 
können wir das Neuron entfernen, haben 
ein Neuron und einige Gewichte verloren 
und reduzieren so die Chance, dass das 
Netz auswendig lernt. Dieser Vorgang wird 
als Pruning („Stutzen“) bezeichnet. 


Wir haben nun Backpropagation und die 
FeedForward-Topologie kennen gelernt - 
nun fehlt uns noch Erfahrung, wie wir 
ein Netz aufbauen. Diese Erfahrung ist im 
Rahmen dieser Arbeit natürlich nicht ver¬ 
mittelbar, und um ein wenig davon zu er¬ 
werben, empfehle ich nun, ein paar der Bei¬ 


spielproblemstellungen aus Abschnitt 4.6 
anzugehen. 


Solch ein Verfahren, unnötige Gewichte 
und Neurone zu detektieren und weg¬ 
zustreichen, nennt sich Optimal Brain 
Damage jfCDS90 . Es sei hier nur kurz 
beschrieben: Der Fehler pro Outputneu¬ 
ron setzt sich hierbei aus zwei konkurrie¬ 
renden Termen zusammen. Während der 
eine wie gewohnt die Differenz zwischen 
Output und Teaching Input berücksich¬ 
tigt, versucht der andere, ein Gewicht ge¬ 
gen 0 zu „pressen“. Wird ein Gewicht nun 
stark benötigt, um den Fehler zu mini¬ 
mieren, gewinnt der erste Term - ist dies 
nicht der Fall, gewinnt der zweite. Neuro¬ 
ne, die nur Nullgewichte besitzen, können 
zum Schluss wieder gestutzt werden. 


5.7 Wie fängt man an? 

Initialkonfiguration eines 
Multilayerperzeptrons 


Nachdem wir jetzt das Lernverfahren 
Backpropagation of Error behandelt ha¬ 
ben und wissen, wie wir ein einmal vorhan¬ 
denes Netz trainieren, ist es noch sinnvoll 
zu betrachten, wie wir denn überhaupt an 
so ein Netz gelangen können. 


102 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 








dkriesel.com 


5.7 Initialkonfiguration eines Multilayerperceptrons 


5.7.1 Anzahl der Schichten: Zwei 

oder drei sind oft genug, mehr 
werden aber auch benutzt 

Fangen wir mit dem trivialen Umstand 
an, dass ein Netz eine Schicht Inputneuro¬ 
ne und eine Schicht Outputneurone haben 
sollte, was uns zu mindestens zwei Schich¬ 
ten führt. 

Weiterhin benötigen wir, wie wir bereits 
während unserer Untersuchung der linea¬ 
ren Separier bar keit erfahren haben, min¬ 
destens eine versteckte Schicht Neurone, 
falls unser Problem nicht linear separier¬ 
bar ist (wie wir gesehen haben, ist das 
wahrscheinlich). 

Es kann, wie schon gesagt, mathematisch 
bewiesen werden, dass dieses MLP mit 
einer versteckten Neuronenschicht bereits 
beliebige Funktionen beliebig genau appro¬ 
ximieren kann 5 - doch müssen wir nicht 
nur die Repräsentierbarkeit eines Pro¬ 
blems durch ein Perceptron betrachten, 
sondern auch die Lernbarkeit. Repräsen¬ 
tierbarkeit bedeutet, dass ein Perceptron 
eine Abbildung grundsätzlich realisieren 
kann - Lernbarkeit bezeichnet aber, dass 
wir sie ihm auch beibringen können. 

Insofern zeigt uns die Erfahrung, dass 
zwei versteckte Neuronenschichten bzw. 
drei trainierbare Gewichtsschichten für die 
Realisierung eines Problems sehr nützlich 
sein können, da viele Probleme zwar durch¬ 
aus von einer versteckten Schicht reprä¬ 

5 Achtung: Wir haben keine Aussage über die Neu¬ 
ronenanzahl in der versteckten Schicht gemacht, 
nur über die theoretische Möglichkeit. 


sentiert werden können, jedoch leider nur 
schwer lernbar sind. 

Jede weitere Schicht erzeugt auch weitere 
Nebenminima der Fehlerfunktion, was bei 
der Wahl der Schichtenzahl beachtet wer¬ 
den sollte. Ein erfolgversprechender Weg 
ist also zusammenfassend, es erst mit einer 
versteckten Schicht zu probieren. Wenn 
das nicht klappt, versucht man es mit zwei¬ 
en, und erst wenn das nicht funktioniert 
auf mehr Schichten auszuweichen. Den¬ 
noch werden mit zunehmender Rechen¬ 
kraft der Computer für manche Probleme 
bereits Deep networks mit sehr vielen 
Schichten erfolgreich angewandt. 

5.7.2 Anzahl der Neurone sollte 
getestet werden 

Die Zahl der Neurone (abseits von 
Eingabe- und Ausgabeschicht, die Anzahl 
der Eingabe- und Ausgabeneurone ist ja 
durch die Problemstellung bereits fest de¬ 
finiert) entspricht grundsätzlich der Zahl 
der freien Parameter des zu repräsentieren¬ 
den Problems. 

Da wir ja schon die Netzkapazität in Be¬ 
zug auf Auswendiglernen oder eine zu 
ungenaue Problemrepräsentation erforscht 
haben, ist klar, dass unser Ziel so wenig 
wie möglich , aber so viel wie nötig freie 
Parameter sind. 

Wie wir aber auch wissen, gibt es keine Pa¬ 
tentformel, wie viele Neurone zu verwen¬ 
den sind - die sinnvollste Herangehenswei¬ 
se besteht also darin, zunächst mit weni¬ 
gen Neuronen zu trainieren und so lange 
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neue Netze mit mehr Neuronen zu trainie¬ 
ren, wie das Ergebnis noch signifikant ver¬ 
bessert und vor allem die Generalisierungs¬ 
leistung nicht beeinträchtigt wird ( Bottom- 
Up-Ansatz). 


5.7.3 Wahl der 

Aktivierungsfunktion 


Ein weiterer sehr wichtiger Parameter für 
die Informationsverarbeitungsweise eines 
Neuronalen Netzes ist die Wahl der Ak¬ 
tivierung sfunktion. Für die Inputneu¬ 
ronen steht die Aktivierungsfunktion ja 
fest, da sie nicht informationsverarbeitend 
sind. 


Eine Frage, die man sich zunächst stel¬ 
len kann, ist, ob man überhaupt in der 
versteckten und der Ausgabeschicht die 
gleiche Aktivierungsfunktion verwenden 
möchte - niemand hindert uns daran, hier 
zu variieren. In aller Regel ist die Akti¬ 
vierungsfunktion aber für alle versteckten 
Neurone untereinander gleich, ebenso für 
die Outputneurone. 


Für Aufgaben der Funktionsapproxi¬ 
mation hat es sich als sinnvoll erwiesen, 
als Aktivierungsfunktion der versteckten 
Neurone den Tangens Hyperbolicus (linker 
Teil der Abb. 5.14 auf der rechten Seite) 
zu verwenden, während eine lineare Akti¬ 
vierungsfunktion in der Ausgabe verwen¬ 
det wird - letzteres ist unbedingt erforder¬ 
lich, damit wir kein begrenztes Ausgabe¬ 
intervall erzeugen. Da die Outputschicht 
im Gegensatz zur ebenfalls linearen In¬ 
putschicht Schwellenwerte besitzt, ist sie 


trotzdem informationsverarbeitend. Linea¬ 
re Aktivierungsfunktionen in der Ausgabe 
können aber auch für riesige Lernschritte 
sorgen, und dafür, dass man gute Minima 
in der Fehleroberfläche überspringt. Dies 
kann verhindert werden, indem man die 
Lernrate an der Ausgabeschicht auf sehr 
kleine Werte setzt. 


Für Aufgaben der Mustererkennung 6 
ist ein unbegrenztes Ausgabeintervall 
nicht unbedingt erforderlich. Verwendet 
man überall den Tangens Hyperbolicus, so 
ist das Ausgabeintervall etwas größer. Die 


Fermifunktion (rechter Teil der Abb. 5.14 


auf der rechten Seite) hat im Gegensatz 


zum Tangens Hyperbolicus weit vor dem 
Schwellenwert (wo ihr Ergebnis nahe 0 ist) 
kaum Möglichkeiten etwas zu lernen. Hier 
ist allerdings wieder viel Ermessensspiel¬ 
raum bei der Wahl der Aktivierungsfunk¬ 
tion gegeben. Sigmoide Funktionen haben 
allgemein aber den Nachteil, dass sie weit 
weg von ihrem Schwellenwert kaum noch 
etwas lernen, wenn man das Netz nicht et¬ 
was modifiziert. 


5.7.4 Gewichte sollten klein und 
zufällig initialisiert werden 

Die Initialisierung der Gewichte ist nicht 
so trivial wie man vielleicht denken mag: 
Initialisiert man sie einfach mit 0, wird 
gar keine Gewichtsänderung stattfinden. 
Initialisiert man sie alle mit demselben 

6 Mustererkennung wird in der Regel als Spezialfall 
der Funktionsapproximation mit wenigen diskreten 
Ausgabemöglichkeiten gesehen. 
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5.8 Das 8-3-8-Kodierungsproblem und verwandte Probleme 


Zufällige 

Startgewichte 


Tangens Hyperbolicus 



Fermi-Funktion mit Temperaturparameter 



x 


x 


Abbildung 5.14: Zur Erinnerung noch einmal die Darstellung des Tangens Hyperbolicus (links) 
und der Fermifunktion (rechts). Die Fermifunktion wurde um einen Temperaturparameter erweitert. 
Die ursprüngliche Fermifunktion ist hierbei dunkel herausgestellt, die Temperaturparameter bei den 
modifizierten Fermifunktionen betragen von außen nach innen (aufsteigend geordnet nach Anstieg) 


Wert, werden sie im Training immer glei¬ 
chermaßen geändert. Die einfache Lösung 
dieses Problems nennt man Symmetry 
Breaking. So wird die Initialisierung der 
Gewichte mit kleinen, zufälligen Werten 
bezeichnet. Als Bereich für die Zufallswer¬ 
te könnte man das Intervall [—0.5; 0.5] ver¬ 
wenden, jedoch ohne die Null oder Wer¬ 
te, die sehr nah bei Null liegen. Diese Zu¬ 
fallsinitialisierung hat einen schönen Ne¬ 
beneffekt, nämlich dass der Durchschnitt 
der Netzeingaben wahrscheinlich nahe 0 
ist. Dies ist nützlich, denn bei den gängi¬ 
gen Aktivierungsfunktionen liegt die 0 im 
Bereich der stärksten Ableitung der Akti¬ 
vierungsfunktion, was kräftige Lernimpul¬ 
se direkt zu Beginn des Lernens ermög¬ 
licht. 

SIMIPE: In Snipe werden die Gewichte zu¬ 
fällig initialisiert, falls eine Synapseninitia¬ 
lisierung gewünscht ist. Den maximalen 
Absolutbetrag eines Gewichts kann man in 


einem NeuralNetworkDescriptor mit der 
Methode setSynapselnitialRange festle¬ 
gen. 

5.8 Das 

8-3-8-Kodierungsproblem 
und verwandte Probleme 

Das 8-3-8-Kodierungsproblenr ist ein Klas¬ 
siker unter den Testtrainingsproblemen 
für Multilayerperceptrons. Wir besitzen 
in unserem MLP eine Eingabeschicht von 
acht Neuronen ■ ■ ■ ,i&, e i ne Ausgabe¬ 
schicht von acht Neuronen fii, O 2 ,..., Gs, 
und eine versteckte Schicht von drei Neu¬ 
ronen. Dieses Netz repräsentiert also eine 
Funktion B 8 —> B 8 . Die Trainingsaufgabe 
ist nun, dass, wenn in ein Neuron ij der 
Wert 1 eingegeben wird, genau im Neuron 
f lj der Wert 1 ausgegeben wird (es soll je- 
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weils nur ein Neuron aktiviert werden, dies 
führt uns zu 8 Trainingsbeispielen). 


Sie werden bei Analyse des trainierten Net¬ 
zes sehen, dass das Netz mit den 3 ver¬ 
steckten Neuronen eine Art Binärkodie¬ 
rung repräsentiert und die obige Abbil¬ 
dung so möglich ist (mutmaßliche Trai¬ 
ningszeit hierfür sind ~ IO 4 Epochen). 
Wir haben mit unserem Netz also eine Ma¬ 
schine gebaut, die Daten kodiert und diese 
anschließend wieder dekodiert. 


Analog hierzu kann man ein 1024-10- 
1024 Kodierungsproblem trainieren — doch 
geht das auch effizienter? Kann es bei¬ 
spielsweise ein 1024-9-1024 oder ein 8-2-8- 
Kodierungsnetz geben? 


Ja, selbst das geht, da das Netz nicht auf 
binäre Kodierungen angewiesen ist: Ein 8- 
2-8-Netz funktioniert also für unsere Pro¬ 
blemstellung. Die Kodierung, die dieses 
Netz realisiert, ist allerdings schwieriger 
zu durchschauen (Abb. 5.15) und es muss 
auch wesentlich länger trainiert werden. 


Ein 8-1-8-Netz funktioniert nicht mehr, 
da die Möglichkeit vorhanden sein muss, 
dass die Ausgabe eines Neurons von einem 
anderen ausgeglichen wird, und bei nur 
einem versteckten Neuron natürlich kein 
Ausgleichsneuron vorhanden ist. 



Abbildung 5.15: Skizze der Funktionsweise der 
Kodierung eines 8-2-8 Netzes. Die Punkte re¬ 
präsentieren die Vektoren der Aktivierung der 
beiden inneren Neuronen. Wie Sie sehen, las¬ 
sen sich durchaus Aktivierungsformationen fin¬ 
den, so dass jeder der Punkte durch eine Gerade 
vom Rest der Punkte separierbar ist. Diese Sepa¬ 
rierung ist im Bild für einen der Punkte exempla¬ 
risch durchgeführt. 


SNIPE: Die statische Methode 

getEncoderSampleLesson der Klas¬ 
se TrainingSampleLesson erlaubt es, 
einfache Trainingsamples für derartige En¬ 
coderprobleme beliebiger Dimensionalität 
zu generieren. 
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5.8 Das 8-3-8-Kodierungsproblem und verwandte Probleme 


Übungsaufgaben 


Aufgabe 8. Ein 2-15-15-2-MLP soll 
durch ein MLP mit nur einer einzigen ver¬ 
deckten Schicht, aber gleich vielen Gewich¬ 
ten ersetzt werden. Berechnen Sie, wievie¬ 
le Neurone dieses Netz in seiner verdeck¬ 
ten Schicht hat. Hinweis: Vergessen Sie das 
BIAS-Neuron nicht. 


Aufgabe 9. In Abb. 5.4 auf Seite 77 se¬ 


hen Sie jeweils ein kleines Netz für die Boo¬ 
leschen Funktionen AND und OR. Schreiben 
Sie Tabellen, die sämtliche Berechnungs¬ 
größen in den Neuronalen Netzen beinhal¬ 
ten (z.B. Netzeingabe, Aktivierungen, etc). 
Exerzieren Sie die vier möglichen Einga¬ 
ben der Netze durch und notieren Sie die 
Werte dieser Größen für die jeweiligen Ein¬ 
gaben. Verfahren Sie in gleicher Weise für 


XGR-Netz (Abb. 5.9 auf Seite 86). 


Aufgabe 10. 


1. Nennen Sie alle Booleschen Funktio¬ 
nen B 3 —> B 1 , welche linear separier¬ 
bar sind, bzw. charakterisieren Sie sie 
genau. 

2. Nennen Sie diejenigen, die es nicht 
sind, bzw. charakterisieren Sie sie ge¬ 
nau. 


Aufgabe 11. Ein einfaches 2-1-Netz soll 
mittels Backpropagation of Error und r] = 
0.1 mit einem einzigen Muster trainiert 
werden. Prüfen Sie, ob der Fehler 

Err = Errp = ^(t - y ) 2 

konvergiert und wenn ja, zu welchem Wert. 
Wie sieht die Fehlerkurve aus? Das Mus¬ 
ter (p,t) sei definiert zu p = (pi,p 2 ) = 


(0.3,0.7) und = 0.4. Initialisieren Sie 
die Gewichte zufällig im Intervall [1; — 1]. 

Aufgabe 12. Ein einstufiges Perceptron 
mit zwei Inputneuronen, Biasneuron und 
binärer Schwellenwertfunktion als Aktivie¬ 
rungsfunktion trennt den zweidimensiona¬ 
len Raum durch eine Gerade g in zwei Tei¬ 
le. Berechnen Sie für ein solches Percep¬ 
tron analytisch einen Satz Gewichtswerte, 
so dass die folgende Menge P der 6 Mus¬ 
ter der Form (pi,P 2 ,tn) mit £<1 richtig 
klassifiziert wird. 


P ={( 0 , 0 , — 1 ); 

( 2 ,- 1 , 1 ); 

(7 + e, 3 — e, 1); 

(7 — e, 3 + e, —1); 

( 0 , —2 — £, 1 ); 

(0 — £, — 2 , — 1 )} 

Aufgabe 13. Berechnen Sie einmal und 
nachvollziehbar den Vektor A W sämtli¬ 
cher Gewichtsänderungen mit dem Verfah¬ 
ren Backpropagation of Error mit rj = 1. 
Gegeben Sei ein 2-2-1-MLP mit Biasneu¬ 
ron, das Muster sei definiert zu 

P = {Pi,P2,tn) = (2, 0,0.1). 

Die Initialwerte der Gewichte sollen bei al¬ 
len Gewichten, welche fl als Ziel haben, 
1 betragen - sämtliche anderen Gewichte 
sollten den Initialwert 0.5 besitzen. Was 
fällt an den Änderungen auf? 
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Kapitel 6 

Radiale Basisfunktionen 



RBF-Netze nähern Funktionen an, indem sie Gaußglocken strecken, stauchen 
und anschließend räumlich versetzt aufsummieren. Beschreibung ihrer 
Funktion und ihres Lernvorganges, Gegenüberstellung mit 

Multilayerperceptrons. 


Radiale Basisfunktionennetze (RBF- 
Netze) nach Poggio und Girosi |PG89 
sind ein Paradigma Neuronaler Netze, 
welches deutlich später entstand als das 
der Perceptrons. Sie sind wie Perceptrons 
schichtartig aufgebaute Netze, allerdings 
in diesem Fall mit exakt drei Schichten, 
also nur einer einzigen Schicht versteckter 
Neurone. 

Wie Perceptrons besitzen die Netze ei¬ 
ne reine FeedForward-Struktur und Voll¬ 
verknüpfung zwischen den Schichten, und 
auch hier trägt die Inputschicht nicht zur 
Informationsverarbeitung bei. Auch sind 
die RBF-Netze wie MLPs universelle Funk- 
tionsapproximatoren. 

Bei allen Gemeinsamkeiten: Was unter¬ 
scheidet die RBF-Netze nun von den Per¬ 
ceptrons? Es ist die Informationsverarbei¬ 
tung selbst bzw. die BerechnungsVorschrif¬ 
ten innerhalb der Neurone, welche nicht 
in der Inputschicht liegen. Wir werden al¬ 


so gleich eine bis jetzt völlig unbekannte 
Art Neurone neu definieren. 

6.1 Bestandteile und Aufbau 
eines RBF-Netzes 

Wir wollen nun zunächst einige Begriffe 
rund um die RBF-Netze erst umgangs¬ 
sprachlich betrachten und danach definie¬ 
ren. 

Ausgabeneurone in einem RBF-Netz ent¬ 
halten nur die Identität als Akti¬ 
vierungsfunktion und eine gewichte¬ 
te Summe als Propagierungsfunktion. 
Sie machen also nichts weiter, als alles, 
was in sie eingegeben wird, aufzusum¬ 
mieren und die Summe auszugeben. 

Versteckte Neurone heißen auch RBF- 
Neurone (so wie die Schicht, in der sie 
sich befinden, auch RBF-Schicht ge¬ 
nannt wird). Jedes versteckte Neuron 
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Eingabe 

wieder 

linear 


C 

Position im 
Eingaberaum 


Wichtig! 


Summiert 
nur auf 


erhält als Propagierungsfunktion eine 
Norm, welche den Abstand zwischen 
der Eingabe in das Netz und dem 
sogenannten Ort des Neurons (Zen¬ 
trum) errechnet. Diese wird in eine 
radiale Aktivierungsfunktion eingege¬ 
ben, die die Aktivierung des Neurons 
berechnet und ausgibt. 

Definition 6.1 (RBF-Eingabeneuron). 

Die Definition und Darstellung ist 
identisch mit der Eingabeneuron- 
Definition 15.1 auf Seite 751 

Definition 6.2 (Zentrum eines RBF-Neu- 
rons). Das Zentrum Ch eines RBF- 
Neurons h ist der Punkt im Eingaberaum, 
in dem das RBF-Neuron angesiedelt ist. Je 
näher der Eingabevektor am Zentrumsvek¬ 
tor eines RBF-Neurons liegt, umso höher 
ist in der Regel seine Aktivierung. 

Definition 6.3 (RBF-Neuron). Die so¬ 
genannten RBF-Neurone h besitzen ei¬ 
ne Propagierungsfunktion / prop , welche 
den Abstand zwischen dem Zentrum Ch 
eines Neurons und dem Eingabevektor 
y feststellt. Dieser Abstand repräsentiert 
dann die Netzeingabe. Die Netzeingabe 
wird dann durch eine Radialbasisfunkti¬ 
on / act geschickt, welche die Aktivierung 
bzw. Ausgabe des Neurons ausgibt. RBF- 

Neurone werden durch das Symbol 

dargestellt. 

Definition 6.4 (RBF-Ausgabeneuron). 
RBF- Ausgabeneurone D besitzen die 
gewichtete Summe als Propagierungsfunk¬ 
tion / prop , und die Identität als Aktivie¬ 
rungsfunktion / act . Wir stellen sie durch 

das Symbol ( ) dar. 



Definition 6.5 (RBF-Netz). Ein RBF- 
Netz besitzt exakt drei Schichten in 
der folgenden Reihenfolge: Die Eingabe¬ 
schicht aus Eingabeneuronen, die versteck¬ 
te Schicht (auch RBF-Schicht genannt) 
aus RBF-Neuronen und die Ausgabe¬ 
schicht aus RBF-Ausgabeneuronen. Jede 
Schicht ist mit der nächsten vollverknüpft, 


ShortCuts existieren nicht (Abb. 6.1 auf 


der rechten Seite) - es handelt sich also 


um eine reine FeedForward-Topologie. Die 
Verbindungen zwischen Eingabeschicht 
und RBF-Schicht sind ungewichtet, lei¬ 
ten die Eingabe also nur weiter. Die Ver¬ 
bindungen zwischen RBF- und Ausgabe¬ 
schicht sind gewichtet. Die ursprüngliche 
Definition eines RBF-Netzes bezog sich 
auf nur ein Ausgabeneuron, analog zu 
den Perceptrons ist aber klar, dass sich 
dies verallgemeinern lässt. Ein Biasneuron 
kennt das RBF-Netz nicht. Wir wollen die 
Menge der Eingabeneurone mit /, die Men¬ 
ge der versteckten Neurone mit H und die 
Menge der Ausgabeneurone mit O bezeich¬ 
nen. 


Die inneren Neurone heißen daher Radiale 
Basisneurone, weil aus deren Definition di¬ 
rekt folgt, dass alle Eingabevektoren, wel¬ 
che den gleichen Abstand vom Zentrum ei¬ 
nes Neurons haben, auch den gleichen Aus¬ 


gabewert produzieren (Abb. 6.2 auf Seite 


112 ). 


3 Schichten, 
Feed Forward 


I,H,0 
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6.1 Bestandteile und Aufbau 



Abbildung 6.1: Ein beispielhaftes RBF-Netz mit zwei Eingabeneuronen, fünf versteckten Neuronen 
und drei Ausgabeneuronen. Die Verbindungen zu den versteckten Neuronen besitzen keine Gewichte, 
sie leiten die Eingabe nur weiter. Rechts der Skizze ist die Benennung der Neurone zu finden, welche 
sich analog zu der bekannten Benennung der Neurone im MLP verhält: Inputneurone heißen i, 
versteckte Neurone h, Ausgabeneurone fl Die zugehörigen Mengen bezeichnen wir mit /, H und 
O. 
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Eingabe 
—► Abstand 
Gaußglocke 
—► Summe 
—>■ Ausgabe 


Abbildung 6.2: Sei das Zentrum eines RBF- 
Neurons h. Dann liefert die Aktivierungsfunktion 
facth für a H e Eingaben, welche auf dem Kreis 
liegen, den gleichen Wert. 


6.2 Informationsverarbeitung 
eines RBF-Netzes 


Die Frage ist nun, was durch dieses Netz 
realisiert wird und wo der Sinn liegt. Ge¬ 
hen wir doch einmal das RBF-Netz von 
oben nach unten durch: Der Input wird 
durch die ungewichteten Verbindungen 
in ein RBF-Neuron eingebracht. Dieses 
schickt den Inputvektor durch eine Norm, 
so dass ein Skalar herauskommt. Dieser 
Skalar (der aufgrund der Norm übrigens 
nur positiv sein kann) wird durch eine Ra¬ 
diale Basisfunktion, also zum Beispiel eine 


Gaußglocke (Abb. 6.3 auf der rechten Sei 


te) verarbeitet. 


Die Ausgabewerte der verschiedenen Neu¬ 
rone der RBF-Schicht bzw- der verschiede¬ 
nen Gaußglocken werden nun in der drit¬ 
ten Schicht aufsummiert: Faktisch werden, 
auf den ganzen Eingaberaum bezogen, al¬ 
so Gaußglocken aufsummiert. 

Stellen wir uns vor, wir haben ein zweites, 
drittes und viertes RBF-Neuron und daher 
insgesamt vier unterschiedlich lokalisierte 
Zentren. Jedes dieser Neurone misst nun 
einen anderen Abstand von der Eingabe 
zum eigenen Zentrum und liefert de fac¬ 
to selbst bei gleicher Gaußglocke andere 
Werte. Da diese zum Schluß in der Aus¬ 
gabeschicht nur aufkumuliert werden, ist 
leicht einsehbar, dass man durch Zerren, 
Stauchen und Verschieben von Gaußglo¬ 
cken und durch das anschließende Aufku¬ 
mulieren jede beliebige Oberfläche model¬ 
lieren kann. Die Entwicklungsterme für die 
Superposition der Gaußglocken liegen hier¬ 
bei in den Gewichten der Verbindungen 
von RBF-Schicht zu Outputschicht. 

Die Netzarchitektur bietet weiterhin die 
Möglichkeit, Höhe und Breite der Gauß¬ 
glocken frei zu bestimmen oder zu trainie¬ 
ren - was dieses Netzparadigma noch viel¬ 
fältiger macht. Methoden und Vorgehens¬ 
weisen hierzu werden wir noch kennenler¬ 
nen. 


6.2.1 RBF-Neurone verarbeiten 
Information durch Normen 
und Radialbasisfunktionen 

Nehmen wir zunächst ein einfaches 1-4-1- 
RBF-Netz als Beispiel. Es ist hier klar, 


112 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 











dkriesel.com 


6.2 Informationsverarbeitung eines RBF-Netzes 



Abbildung 6.3: Zwei einzelne Gaußglocken im Ein- und Zweidimensionalen. In beiden Fällen gilt 
<7 = 0.4 und in beiden Fällen ist das Zentrum der Gaußglocke im Nullpunkt. Der Abstand r zum 
Zentrum (0,0) berechnet sich schlicht aus dem Satz des Pythagoras: r = \fx 2 + y 2 . 


dass wir eine eindimensionale Ausgabe er¬ 
halten werden, die wir als Funktion dar¬ 
stellen können (Abb. |6.4 auf der folgen- 


den Seite). Das Netz besitzt weiterhin Zen¬ 
tren ci, C 2 ,..., C 4 der vier inneren Neurone 
h\, hi, ■ ■ ■, hi, und somit Gaußglocken, die 
zum Schluss im Ausgabeneuron D aufsum¬ 
miert werden. Das Netz besitzt auch vier 
Werte o\, < 72 ,..., rr 4 , welche die Breite der 
Gaußglocken beeinflussen. Die Höhe der 
Gaußglocke wird hingegen von den nach¬ 
folgenden Gewichten beeinflusst, da damit 
die einzelnen Ausgabewerte der Glocken 
multipliziert werden. 


Da wir eine Norm zum Berechnen des Ab¬ 
stands des Inputvektors zum Neuronen¬ 
zentrum eines Neurons h verwenden, ha¬ 
ben wir verschiedene Wahlmöglichkeiten: 


Oft wird der Euklidische Abstand zur Ab¬ 
standsberechnung gewählt: 

r h = \\x - c h || 

( x i - °h,i ) 2 
iei 

Wir erinnern uns: Mit x haben wir den Ein¬ 
gabevektor benannt. Hierbei durchläuft 
der Index i die Eingabeneurone und damit 
die Komponenten des Eingabevektors und 
des Neuronenzentrums. Wie wir sehen, bil¬ 
det der Euklidische Abstand die Quadrate 
der Differenzen aller Vektorkomponenten, 
summiert sie auf und zieht aus der Sum¬ 
me die Wurzel, was im zweidimensionalen 
dem Satz des Pythagoras gleich kommt. 
Aus der Definition einer Norm folgt direkt, 
dass der Abstand nur positiv sein kann, 
weswegen wir genaugenommen den positi¬ 
ven Teil der Aktivierungsfunktion verwen¬ 
den. Übrigens sind auch andere Aktivie¬ 
rungsfunktionen als die Gaußglocke mög- 



( 6 . 1 ) 

( 6 . 2 ) 
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Abbildung 6.4: Vier verschiedene durch RBF-Neurone gebildete Gaußglocken im Eindimensionalen 
werden von einem Outputneuron des RBF-Netzes aufsummiert. Die Gaußglocken haben verschiede¬ 
ne Höhen, Breiten und Orte. Die Zentren C\, C 2 ,..., C 4 lagen bei 0,1, 3,4, die Breiten < 74 , 02 , ...,(74 
bei 0. 4,1,0.2, 0.8. Ein Beispiel für den zweidimensionalen Fall findet sich in Abb. |6.5 auf der rechten] 
Seite 


lieh, in aller Regel werden Funktionen ge¬ 
wählt, die im Intervall [0; 00 ] monoton ab- 
fallen. 

Nachdem wir nun den Abstand r^ des In¬ 
putvektors x zum Zentrum Ch des RBF- 
Neurons h kennen, muss dieser Abstand 
durch die Aktivierungsfunktion / ac t ge¬ 
schickt werden - wir verwenden hier, wie 
schon gesagt, eine Gaußglocke: 



Es ist klar, dass sowohl Zentrum Ch als 
auch die Breite als Bestandteil der Akti¬ 
vierungsfunktion / ac t gesehen werden kön¬ 
nen und nach dieser Ansicht die Aktivie¬ 


rungsfunktionen nicht alle mit / ac t bezeich¬ 
net werden dürften. Eine Lösung wäre, die 
Aktivierungsfunktionen nach dem Muster 
/acti, /act 2 ! ■ • • > /act |ff| mit H als Menge 
der versteckten Neurone durchzunumme¬ 
rieren - was die Erklärungen aber unüber¬ 
sichtlich macht. Insofern verwende ich ein¬ 
fach für alle Aktivierungsfunktionen die 
Bezeichnung / ac t und betrachte a und c 
als Größen, die zwar für einzelne Neurone 
definiert, aber nicht direkt in der Aktivie¬ 
rungsfunktion enthalten sind. 

Dem Leser fällt bestimmt auf, dass die 
Gaußglocke bei ihren vielen Verwendun¬ 
gen in anderer Literatur oft mit einem mul¬ 
tiplikativen Faktor versehen wird - auf- 
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6.2 Informationsverarbeitung eines RBF-Netzes 



Abbildung 6.5: Vier verschiedene durch RBF-Neurone gebildete Gaußglocken im Zweidimensiona¬ 
len werden von einem Outputneuron des RBF-Netzes aufsummiert. Für den Abstand gilt wieder 

r = y/x 2 + y 2 . Die Höhen w, Breiten a und Zentren c = (x,y) sind: w\ = l,oi = 0.4, Ci = 
(0.5,0.5), u >2 = — 1,<J2 = 0.6,C 2 = (1.15,-1.15), W 3 = 1.5 ,03 = 0.2,C 3 = (—0.5,— 1), 
UJ 4 = 0.8, <74 = 1.4, C 4 = (—2, 0). 
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grund der sowieso vorhandenen Multipli¬ 
kation durch die nachfolgenden Gewichte 
und der Aufwiegbarkeit von Konstanten¬ 
multiplikationen brauchen wir diesen Fak¬ 
tor jedoch hier nicht (zumal das Integral 
der Gaußglocke für unsere Zwecke nicht 
immer 1 sein darf) und lassen ihn daher 
einfach weg. 

6.2.2 Einige analytische Gedanken 
im Vorfeld zum Training 

Die Ausgabe yn eines RBF- 
Ausgabeneurons D ergibt sich also, 
indem wir die Funktionen eines 
RBF-Neurons zusammensetzen zu 


yn = u ’ h P ' /act (||a: - c h \\). (6.4) 

heH 

Nehmen wir an, wir besitzen wie beim 
Multilayerperceptron eine Menge P, die 
|P| viele Trainingsbeispiele (p,t) enthält. 
Dann erhalten wir |P| viele Funktionen 
der Form 


Vü = 5Z Wh P ' ^ct {\\P~ CfcH) , (6.5) 

heH 

nämlich für jedes Trainingsbeispiel p ei¬ 
ne. 

Das Ziel des Aufwands ist es natürlich wie¬ 
der, die Ausgabe y für alle Trainingsmus¬ 
ter p gegen den zugehörigen Teaching In¬ 
put t gehen zu lassen. 


6.2.2.1 Gewichte können einfach als 

Lösung eines Gleichungssystems 
ausgerechnet werden 

Wir sehen also, dass wir |P| viele Glei¬ 
chungen gegeben haben. Betrachten wir 
nun die Breiten <n, 02 ,..., <7*., die Zentren 
ci, C 2 ,..., Cfc und die Trainingsbeispiele p 
samt Teaching Input t als gegeben. Ge¬ 
sucht sind die Gewichte Wh,n, wovon es 
\H\ Stück für ein einzelnes Ausgabeneu¬ 
ron fl gibt. Wir können unser Problem also 
als Gleichungssystem sehen, da das einzi¬ 
ge, was wir im Moment verändern möch¬ 
ten, die Gewichte sind. 

Dies bringt uns dazu, eine Fallunterschei¬ 
dung zu treffen bezüglich der Anzahl der 
Trainingsbeispiele |P| und der Anzahl der 
RBF-Neurone \H\: 

|P| = | H\: Ist die Zahl der RBF-Neurone 
gleich der Zahl der Muster, also |P| = 

| H\, so können wir die Gleichung auf 
eine Matrixmultiplikation 



Ar 1 

T = 

■ T = 

M-G 

AI- 1 M-G 

(6.6) 

(6.7) 


Ar 1 

■ T = 

EG 

(6.8) 

4=> 

ai- 1 

■ T = 

G 

(6.9) 


zurückführen, wobei 

> T der Vektor der Teaching In¬ 
puts für alle Trainingsbeispiele 
ist, 

> M die |P| x |P|-Matrix der 


Gewichte 

einfach 

ausrechnen 


T 


M 
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G 

E 


Ausgaben von allen \H\ RBF- 
Neuronen zu |P| vielen Beispie¬ 
len (Wir erinnern uns: |P| = \H\, 
die Matrix ist quadratisch und 
daher können wir versuchen, sie 
zu invertieren), 

> G der Vektor der gewünschten 
Gewichte und 

> E eine Einheitsmatrix passend 
zu G. 

Wir können also die Gewichte mathe¬ 
matisch gesehen einfach ausrechnen: 
Im Fall \P\ = | H\ haben wir pro Trai¬ 
ningsbeispiel genau ein RBF-Neuron 
zur Verfügung. Das heißt nichts an¬ 
deres, als dass das Netz nach erfolg¬ 
tem Errechnen der Gewichte die \P\ 
vielen Stützstellen, die wir haben, ex¬ 
akt trifft, also eine exakte Interpo¬ 
lation durchführt - für ein solches 
Gleichungs-Ausrechnen benötigen wir 
aber natürlich kein RBF-Netz, so dass 
wir zum nächsten Fall übergehen wol¬ 
len. 

Exakte Interpolation ist nicht mit 
dem bei den MLPs erwähnten Aus¬ 
wendiglernen zu verwechseln: Erstens 
reden wir im Moment noch gar nicht 
über das Trainieren von RBF-Netzen, 
zweitens kann es auch sehr gut für uns 
und durchaus gewollt sein, wenn das 
Netz zwischen den Stützstellen exakt 
interpoliert. 

P | < \H\: Das Gleichungssystem ist un¬ 
terbestimmt, es existieren mehr RBF- 
Neurone als Trainingsbeispiele, also 


|P| //1. Dieser Fall taucht natür¬ 

lich normalerweise nicht sehr oft auf. 
In diesem Fall gibt es eine Lösungs¬ 
vielfalt, die wir gar nicht im Detail 
brauchen: Wir können uns aus vielen 
offensichtlich möglichen Sätzen von 
Gewichten einen auswählen. 

P\ > \H\: Für die weitere Betrachtung 
am interessantesten ist jedoch der 
Fall, dass es signifikant mehr Trai¬ 
ningsbeispiele gibt als RBF-Neurone, 
also gilt \P\ > \H\ - wir wollen al¬ 
so wieder die Generalisierungsfähig- 
keit der Neuronalen Netze nutzen. 

Wenn wir viel mehr Trainingsmuster 
als RBF-Neurone haben, können wir 
fairerweise nicht mehr davon ausge¬ 
hen, dass jedes Trainingsmuster exakt 
getroffen wird. Wenn wir die Punk¬ 
te also nicht exakt treffen können 
und daher auch nicht nur interpolie¬ 
ren können wie im obigen Idealfall 
|P| = \H\, so müssen wir versuchen, 
eine Funktion zu finden, die unsere 
Trainingsmenge P so genau wie mög¬ 
lich approximiert: Wir versuchen 
wie beim MLP, die Summe der Feh¬ 
lerquadrate auf ein Minimum zu re¬ 
duzieren. 

Wie fahren wir also im Fall \P\ > \H\ 
mit der Berechnung fort? Wie oben 
müssen wir, um das Gleichungssys¬ 
tem zu lösen, eine Matrixmultiplika¬ 
tion 

T = M ■ G (6.10) 

mit einer Matrix M lösen. Problem 
ist aber, dass wir die |P| x \H\- 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


117 




Kapitel 6 Radiale Basisfunktionen 


dkriesel.com 


M+ 


Matrix M dieses mal nicht invertie¬ 
ren können, weil sie nicht quadra¬ 
tisch ist (es gilt \P\ 7 ^ \H\ ). Hier 
müssen wir also, um überhaupt wei¬ 
terzukommen, die Moore-P enrose- 
Pseudoinverse mit 

M + = ( M t • M)“ 1 • M t (6.11) 

verwenden. Die Moore-Penrose- 
Pseudoinverse ist nicht die Inverse 
einer Matrix, kann aber in diesem 
Fall so verwendet werden 1 * * * . Wir 
erhalten Gleichungen, die denen im 
Fall |P| = \H\ sehr ähnlich sind: 

T = M ■ G ( 6 . 12 ) 

<£> M + ■ T = M + ■ M ■ G (6.13) 
M + T = E ■ G (6.14) 

M + T = G (6.15) 

Ein weiterer Hauptgrund für die 
Verwendung der Moore-Penrose- 
Pseudoinversen ist hier, dass sie die 
quadratische Abweichung minimiert 
(was unser Ziel ist): Die Schätzung 
des Vektors G in Gleichung |6.15| 
entspricht dem aus der Statistik 
bekannten Gauß-Markov-Modell 
zur Minimierung des quadratischen 
Fehlers. In den obigen Gleichun¬ 
gen |6.11| und folgenden sei das T in 
M t (der transponierten Matrix M) 
bitte nicht mit dem T des Vektors 
aller Teaching Inputs zu verwechseln. 

1 Insbesondere gilt M + = M -1 , falls M invertier¬ 

bar. Auf die Begründung für diese Umstände und 

Verwendungsmöglichkeiten von M + möchte ich 

hier nicht weiter eingehen - diese sind aber in der 

Linearen Algebra einfach zu finden. 


6.2.2.2 Die Verallgemeinerung auf 
mehrere Ausgaben ist trivial 
und wenig rechenintensiv 

Wir haben also jeweils einen mathema¬ 
tisch exakten Weg gefunden, die Gewichte 
direkt zu errechnen. Was passiert nun bei 
mehreren Ausgabeneuronen, also |0| > 1, 
wobei O wie gewohnt die Menge der Aus¬ 
gabeneurone fl ist? 

In diesem Fall ändert sich, wie wir schon 
angedeutet haben, nicht viel: Diese weite¬ 
ren Ausgabeneurone haben ja einen eige¬ 
nen Satz Gewichte, während wir die a und 
c der RBF-Schicht nicht ändern. Für ein 
RBF-Netz ist es also für gegebene a und c 
einfach, sehr viele Outputneurone zu rea¬ 
lisieren, da wir nur für jedes neue Output¬ 
neuron fl einzeln den Vektor der zu ihm 
führenden Gewichte 

Gq = M + ■ Tq (6.16) 

errechnen müssen, wobei die sehr aufwän¬ 
dig zu errechnende Matrix M + immer 
gleich bleibt: Das Hinzufügen von mehr 
Ausgabeneuronen ist also, was die Be¬ 
rechnungskomplexität angeht, recht preis¬ 
wert. 

6.2.2.3 Berechnungsaufwand und 
Genauigkeit 

Bei realistischen Problemstellungen gilt je¬ 
doch in aller Regel, dass es wesentlich 
mehr Trainingsbeispiele als RBF-Neurone 
gibt, also |P| 3> \H\: Man kann ohne weite¬ 
res den Wunsch haben, mit 10 6 Trainings¬ 
beispielen zu trainieren. Wir können zwar 


Ausgabe¬ 

dimension 

preiswert 
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6.3 Training von RBF-Netzen 


M+ aufwändig 
und ungenau 


theoretisch mathematisch korrekt an der 
Tafel die Terme für die richtige Lösung 
finden (in sehr sehr langer Zeit), die Be¬ 
rechnung am Computer erweist sich aber 
oft als ungenau und sehr zeitaufwändig 
(Matrixinversionen haben einen großen Re¬ 
chenaufwand) . 


Weiterhin ist unsere Moore-Penrose- 
Pseudoinverse, trotz numerischer 
Stabilität, noch keine Garantie dafür, 
dass der Outputvektor dem Teachingvek- 
tor entspricht, da bei den aufwändigen 
Berechnungen sehr viele Ungenauigkeiten 
auftreten können, obwohl die Rechenwege 
mathematisch natürlich korrekt sind: 
Unsere Computer können uns die 
pseudoinversen Matrizen auch nur 
näherungsweise liefern (wenn auch 
gute Näherungen). De facto erhalten 
wir also auch nur eine Näherung der 
richtigen Gewichte (womöglich mit vielen 
aufgeschaukelten Ungenauigkeiten) und 
damit auch nur eine (vielleicht sehr 
grobe oder gar unerkennbare) Näherung 
der Outputwerte an den gewünschten 
Output. 


Falls wir genug Rechenpower besitzen, um 
einen Gewichtsvektor analytisch zu be¬ 
stimmen, sollten wir ihn also auf jeden 
Fall nur als Startwert für unseren Lernvor¬ 
gang benutzen, womit wir zu den wirkli¬ 
chen Trainingsverfahren kommen - aber 
sonst wäre es ja auch langweilig, oder? 


6.3 Kombinationen aus 
Gleichungssystem und 
Gradientenverfahren sind 
zum Training sinnvoll 

Analog zum MLP führen wir also zum 
Finden passender Gewichte einen Gradi¬ 
entenabstieg durch, und zwar über die 
bereits hinlänglich bekannte Delta-Regel. 
Backpropagation ist hier gar nicht not¬ 
wendig, da wir nur eine einzige Gewichts¬ 
schicht trainieren müssen - ein Umstand, 
der sehr rechenzeitfreundlich ist. 

Wie wir wissen, lautet die Delta-Regel an 
sich 

= n ■ ■ o h , (6.17) 

wobei wir in unserem Fall nun einsetzen: 

= n-(tn- yn) • / ac t(lb - c h\\) 

(6.18) 

Ich möchte noch einmal ausdrücklich dar¬ 
auf hinweisen, dass es sehr beliebt ist, das 
Training in zwei Phasen zu unterteilen, 
indem man zunächst einen Gewichtssatz 
analytisch berechnet und diesen mit der 
Delta-Regel nachtrainiert. 

Oft wird das Training sogar in drei Pha¬ 
sen gegliedert: Es bleibt nämlich noch die 
Frage zu klären, ob man offline oder onli¬ 
ne lernt. Hier kann man Ähnliches sagen 
wie bei Multilayerperceptrons: Es wird oft 
zunächst online gelernt (schnellere Bewe¬ 
gung über die Fehleroberfläche). Anschlie¬ 
ßend, wenn man der Meinung ist, sich der 
Lösung zu nähern, werden in einer dritten 


Nachtraining 
Delta-Regel 


Training 
in Phasen 
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er und c 
variieren 


Lernphase noch einmal die Fehler aufku¬ 
muliert und für eine noch genauere Annä¬ 
herung offline gelernt. Ähnlich wie bei den 
MLPs erreicht man aber hier mit vielen 
Methoden gute Erfolge. 

Wir haben aber schon angedeutet, dass 
man auch andere Dinge an einem RBF- 
Netz optimieren kann als nur die Gewichte 
vor der Outputschicht - betrachten wir al¬ 
so einmal die Möglichkeiten, die u und c 
zu variieren. 

6.3.1 Zentren und Breiten von 

RBF-Neuronen zu bestimmen, 
ist nicht immer trivial 

Es ist klar, dass man die Approximati¬ 
onsgenauigkeit von RBF-Netzen erhöhen 
kann, indem man die Breiten und Positio¬ 
nen der Gaußglocken im Inputraum an das 
zu approximierende Problem anpasst. Es 
gibt mehrere Methoden, mit den Zentren 
c und Breiten a der Gaußglocken zu ver¬ 
fahren: 

Feste Wahl: Die Zentren und Breiten 
kann man fest und ohne Rücksicht auf 
die Muster wählen - hiervon sind wir 
bis jetzt ausgegangen. 

Bedingte, feste Wahl: Wieder werden 
Zentren und Breiten fest gewählt, 
man besitzt allerdings Vorwissen 
über die zu approximierende 
Funktion und kann sich etwas danach 
richten. 


auch die anspruchsvollste. Eine Rea¬ 
lisierung dieses Ansatzes wird in die¬ 
sem Kapitel nicht besprochen, ist 
aber im Zusammenhang mit einer an¬ 
deren Netztopologie zu finden (Ab¬ 
schnitt 10.6.1). 


6.3.1.1 Feste Wahl 


In jedem Fall ist es das Ziel, den Eingangs¬ 
raum möglichst gleichmäßig abzudecken. 
Hier kann man dann Breiten von | des 
Abstandes der Zentren zueinander wählen, 
so dass sich die Gaußglocken zu ca. „ei¬ 


nem Drittel“ 2 überlappen (Abb. 6.6 auf 


der rechten Seite). Je dichter wir die Glo¬ 


cken setzen, desto genauer, aber desto Re¬ 
chenaufwändiger wird das Ganze. 


Dies mag sehr unelegant aussehen, aller¬ 
dings kommen wir in Bereichen der Funkti¬ 
onsapproximation kaum um die gleichmä¬ 
ßige Abdeckung herum - hier bringt es uns 
nämlich im Allgemeinen wenig, wenn die 
zu approximierende Funktion an einigen 
Stellen sehr genau repräsentiert wird, an 
anderen Stellen aber nur 0 als Rückgabe¬ 
wert geliefert wird. 


Allerdings erfordert eine hohe Eingangs¬ 
dimension gigantisch viele RBF-Neurone, 
was den Rechenaufwand exponentiell zur 
Dimension in die Höhe schnellen läßt - 
und dafür sorgt, dass wir sechs- bis zehndi¬ 
mensionale Probleme bei RBF-Netzen be¬ 
reits „hochdimensional“ nennen (ein MLP 


Eingabe¬ 
dimension 
sehr teuer 


Adaptiv zum Lernprozess: Zweifellos die 
eleganteste Variante, aber natürlich 


2 Es ist klar, dass eine Gaußglocke mathematisch 
unendlich breit ist, ich bitte also den Leser, diese 
saloppe Formulierung zu entschuldigen. 
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6.3 Training von RBF-Netzen 




Abbildung 6.6: Beispiel einer gleichmäßigen Abbildung 6.7: Beispiel einer ungleichmäßigen 
Abdeckung eines zweidimensionalen Inputrau- Abdeckung eines zweidimensionalen Inputrau¬ 
mes durch Radialbasisfunktionen. mes, über den wir Vorwissen besitzen, durch 

Radialbasisfunktionen. 


macht hier beispielsweise überhaupt keine 
Probleme). 


6.3.1.2 Bedingte, feste Wahl 


Angenommen, unsere Trainingsbeispiele 
sind nicht gleichmäßig über den Eingangs¬ 
raum verteilt - dann liegt es nahe, die 
Zentren und Sigmas der RBF-Neurone 
anhand der Musterverteilung auszurich¬ 
ten. Man kann also seine Trainingsmus¬ 
ter mit statistischen Verfahren wie einer 
Clusteranalyse analysieren und so heraus¬ 
finden, ob es statistische Gegebenheiten 
gibt, nach denen wir unsere Verteilung 
der Zentren und Sigmas richten sollten 


(Abb. 6.7). 


Eine trivialere Möglichkeit wäre es, \H\ 
viele Zentren auf zufällig aus der Muster¬ 
menge ausgewählte Positionen zu setzen: 
Es bestünde also bei dieser Vorgehenswei¬ 
se für jedes Trainingsmuster p die Möglich¬ 
keit, direkt Zentrum eines Neurons zu sein 
(Abb. 6.8 auf der folgenden Seite). Das ist 
auch noch nicht sehr elegant, aber keine 
schlechte Lösung, wenn es schnell gehen 
soll. Bei dieser Vorgehens weise werden die 
Breiten in der Regel fest gewählt. 


Wenn wir Grund zu der Annahme haben, 
dass die Menge der Trainingsbeispiele Häu¬ 
fungspunkte besitzt, können wir Cluste- 
ringverfahren benutzen, um diese zu fin¬ 
den. Es gibt verschiedene Arten, Cluster 
in einer beliebigdimensionalen Menge von 
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Abbildung 6.8: Beispiel einer ungleichmäßigen 
Abdeckung eines zweidimensionalen Inputrau¬ 
mes durch Radialbasisfunktionen. Die Breiten 
wurden fest gewählt, die Zentren der Neurone 
zufällig über die Trainingsmuster verteilt. Diese 
Verteilung kann natürlich leicht zu unrepräsenta¬ 
tiven Ergebnissen führen, wie auch deutlich an 
dem allein stehenden Datenpunkt unten links zu 
sehen ist. 


Punkten zu finden, von denen wir einige 
im Exkurs El kennenlernen werden. Ein 
neuronales Clusteringverfahren sind die so¬ 
genannten ROLFs (Abschnitt A.5), und 
auch Seif Organizing Maps haben sich als 
sinnvoll im Zusammenhang mit der Posi¬ 
tionsbestimmung von RBF-Neuronen er¬ 
wiesen (Abschnitt 10.6.1). Bei den ROLFs 
können sogar Anhaltspunkte für sinnvol¬ 
le Radien der RBF-Neurone gefunden wer¬ 
den. Auch mit Learning Vector Quantisa- 
tion (Kap. [ÖJ wurden schon gute Ergeb¬ 
nisse erzielt. Alle diese Verfahren haben 
nichts direkt mit den RBF-Netzen zu tun, 
sondern dienen der reinen Erzeugung von 
Vorwissen - wir behandeln sie daher nicht 
in diesem Kapitel, sondern eigenständig in 
den genannten Kapiteln. 


Ein weiterer Ansatz ist, auf Bewährtes zu¬ 
rückzugreifen: Wir können an den Positio¬ 
nen der Zentren drehen und schauen, wie 
sich unsere Fehlerfunktion Err damit ver¬ 
ändert - einen Gradientenabstieg, wie von 
den MLPs gewohnt. Wir können auch auf 
gleiche Weise schauen, wie der Fehler von 
den Werten er abhängt. Analog zur Herlei- 
tung von Backpropagation bilden wir also 
die Ableitungen 


dErr(cr fe Cfe) 

da h 


und 


<9Err(o- fe Cfe) 

dc h 


Da die Herleitung dieser Terme sich ana¬ 
log zu der von Backpropagation verhält, 
wollen wir sie hier nicht ausführen. 


Die Erfahrung zeigt aber, dass es kei¬ 
ne sehr überzeugenden Ergebnisse liefert, 
wenn wir betrachten, wie sich der Feh¬ 
ler abhängig von den Zentren und Sigmas 
verhält. Auch wenn die Mathematik uns 
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6.4 Wachsende RBF-Netze 


lehrt, dass Verfahren dieser Art erfolgver¬ 
sprechend sind, ist der Gradientenabstieg, 
wie wir wissen, problembehaftet bei sehr 
zerklüfteten Fehlerober flächen. 

Genau hier liegt der Knackpunkt: RBF- 
Netze bilden naturgemäß sehr zerklüftete 
Fehleroberflächen, denn wenn wir an ei¬ 
nem c oder a etwas verändern, verändern 
wir das Aussehen der Fehlerfunktion sehr 
stark. 

6.4 Wachsende RBF-Netze 
passen die 
Neuronendichte 
automatisch an 

Bei wachsenden RBF-Netzen ist die 
Anzahl \H\ der RBF-Neurone nicht kon¬ 
stant. Man wählt vorab eine bestimmte 
Zahl \H\ Neurone, sowie deren Zentren 
Ch und Breiten ah (beispielsweise anhand 
eines Clusteringverfahrens) und erweitert 
bzw. reduziert diese anschließend. Im Fol¬ 
genden werden nur einfache Mechanismen 
angeschnitten, genauere Informationen fin¬ 
den Sie unter [Fri94 . 


6.4.1 Neurone werden Stellen 

großen Fehlers hinzugefügt 

Nach Bildung dieser Startkonfiguration be¬ 
rechnet man analytisch den Vektor der Ge¬ 
wichte G. Man errechnet als nächstes alle 


spezifischen Fehler Err p bezüglich der Men¬ 
ge P der Trainingsbeispiele und sucht den 
maximalen spezifischen Fehler 

max(En’p). 

Die Erweiterung des Netzes ist einfach: 
An die Stelle dieses größten Fehlers setzen 
wir nun ein neues RBF-Neuron. Hierbei 
müssen wir natürlich ein wenig aufpassen: 
Bei kleinen a beeinflussen sich die Neuro¬ 
ne nur bei wenig Entfernung zueinander. 
Bei großen a hingegen findet aufgrund der 
Überlappung der Gaußglocken eine große 
Beeinflussung der schon vorhandenen Neu¬ 
rone durch das neue Neuron statt. 

Es liegt also nahe, dass wir beim Hin¬ 
zufügen eines neuen Neurons die bereits 
vorhandenen RBF-Neurone etwas anpas¬ 
sen. 

Diese Anpassung geschieht salopp gesagt, 
indem man die Zentren c der anderen Neu¬ 
rone etwas von dem neuen Neuron weg¬ 
bewegt und deren Breite a etwas verklei¬ 
nert. Danach wird der aktuelle Outputvek- 
tor y des Netzes mit dem Teaching In¬ 
put t verglichen und der Gewichtsvektor 
G durch Training verbessert. Anschließend 
kann man, sofern erforderlich, wieder ein 
neues Neuron einfügen. Dieses Verfahren 
eignet sich insbesondere für Funktionsap¬ 
proximationen. 

6.4.2 Begrenzung der 
Neuronenanzahl 

Es ist hierbei unbedingt darauf zu achten, 
dass das Netz nicht ins Unendliche wächst, 


Neuron 
auf Fehler 
setzen 
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Unwichtige 
Neurone raus 


was sehr schnell passieren kann. Es ist al¬ 
so sinnvoll, sich im Vorhinein eine Maxi¬ 
malanzahl für Neurone |Lf| max zu definie¬ 
ren. 


6.4.3 Weniger wichtige Neurone 
werden gelöscht 

Dies bringt uns zu der Frage, ob man 
noch weiter lernen kann, wenn diese Gren¬ 
ze | H |max erreicht ist. Auch hier ist dem 
Lernen noch kein Riegel vorgeschoben: 
Man sucht sich das „unwichtigste“ Neuron 
und löscht es. Ein Neuron ist beispielswei¬ 
se für das Netz nicht wichtig, wenn es ein 
anderes Neuron gibt, welches fast genau 
das gleiche tut: Es kommt oft vor, dass 
sich zwei Gaußglocken genau überlappen, 
an solchen Stellen würde beispielsweise ein 
einziges Neuron mit entsprechend größerer 
Höhe seiner Gaußglocke genügen. 

Automatisierte Verfahren für das Finden 
von weniger relevanten Neuronen zu entwi¬ 
ckeln, ist aber sehr stark problemabhängig 
und sei an dieser Stelle dem Programmie¬ 
rer überlassen. 

Mit RBF-Netzen und Multilayerpercep- 
trons haben wir nun bereits zwei Netzpa¬ 
radigmen für ähnliche Problemstellungen 
kennengelernt und ausführlich betrachtet. 
Wir wollen diese beiden Paradigmen daher 
einander gegenüberstellen und ihre Vor- 
und Nachteile vergleichen. 


6.5 Gegenüberstellung von 
RBF-Netzen und 
Multilayerperceptrons 

Wir nehmen den Vergleich von Multilayer¬ 
perceptrons und RBF-Netzen anhand ver¬ 
schiedener Aspekte vor. 

Eingabedimension: Bei RBF-Netzen ist 
in hochdimensionalen Funktionsräu¬ 
men etwas Vorsicht geboten, da das 
Netz sehr schnell sehr Speicher- und 
rechenaufwändig werden kann - hier 
macht ein Multilayerperceptron weni¬ 
ger Probleme, da dessen Neuronenan¬ 
zahl nicht exponentiell mit der Einga¬ 
bedimension wächst. 

Wahl der Zentren: Allerdings ist die 
Wahl der Zentren c bei RBF-Netzen 
(trotz der hier vorgestellten Ansätze) 
nach wie vor ein großes Problem - 
bitte nutzen Sie bei deren Anwen¬ 
dung also wirklich jedes Vorwissen, 
das sie haben. Solche Probleme 
haben wir beim MLP nicht. 

Ausgabedimension: Vorteil der RBF- 
Netze ist, dass es dem Training wenig 
macht, wenn das Netz eine hohe 
Output-Dimension aufweist - ein 
Lernverfahren wie Backpropagation 
bei einem MLP wird dabei sehr in 
die Länge gezogen. 

Extrapolation: Vorteil und Nachteil von 
RBF-Netzen ist die mangelnde Extra¬ 
polationsfähigkeit: Ein RBF-Netz lie¬ 
fert weit weg von den Zentren der 
RBF-Schicht das Ergebnis 0. Dies ist 
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6.5 Gegenüberstellung von RBF-Netzen und Multilayerperceptrons 


Wichtig! 


gut und schlecht: Zum einen extrapo¬ 
liert es eben nicht, es ist im Gegen¬ 
satz zum MLP hierfür nicht verwert¬ 
bar (wobei wir beim MLP nie wissen 
können, ob die extrapolierten Werte 
vernünftig sind, die Erfahrung zeigt 
aber, dass MLPs hier gutmütig sind). 
Zum anderen hat das Netz aber im 
Gegensatz zum MLP die Möglichkeit, 
uns durch diese 0 zu sagen „Ich weiss 
es nicht“, was sehr vom Vorteil sein 
kann. 

Läsionstoleranz: Für den Output eines 
MLPs ist es nicht so wichtig, wenn 
irgendwo ein Gewicht oder Neuron 
fehlt, er wird insgesamt ein wenig 
schlechter werden. Fehlt ein Gewicht 
oder Neuron beim RBF-Netz, so sind 
weite Teile des Outputs so gut wie un¬ 
beeinflusst - eine Stelle des Outputs 
ist jedoch sehr betroffen, weil eben di¬ 
rekt eine Gaußglocke fehlt. Hier kann 
man also wählen zwischen starkem lo¬ 
kalem Fehler bei Läsion und schwa¬ 
chem, aber globalem Fehler. 

Verbreitung: Hier ist das MLP „im Vor¬ 
teil“, da RBF-Netze wesentlich weni¬ 
ger angewandt werden - ein Umstand, 
der von professionellen Stellen nicht 
immer verstanden wird (was niedrig¬ 
dimensionale Eingaberäume angeht). 
MLPs haben anscheinend eine wesent¬ 
lich höhere Tradition und funktionie¬ 
ren zu gut, als dass es nötig wäre, sich 
ein paar Seiten in dieser Arbeit über 
RBF-Netze durchzulesen :-). 


Übungsaufgaben 

Aufgabe 14. Mit einem |/|-|Lf|-|0|-RBF- 
Netz mit festen Breiten und Zentren der 
Neurone soll eine Zielfunktion u approxi¬ 
miert werden. Hierfür sind |P| viele Trai¬ 
ningsbeispiele der Form (p, t ) der Funkti¬ 
on u gegeben. Es gelte |P| > \H\. Die 
Bestimmung der Gewichte soll analytisch 
über die Moore-Penrose-Pseudoinverse er¬ 
folgen. Geben Sie das Laufzeitverhalten 
bezüglich |P| und \0\ möglichst genau an. 

Hinweis: Für Matrixmultiplikationen und 
Matrixinvertierungen existieren Verfahren, 
welche effizienter sind als die kanonischen 
Verfahren. Für bessere Abschätzungen re¬ 
cherchieren Sie nach solchen Verfahren 
(und deren Komplexität). Geben Sie bei 
Ihrer Komplexitätsberechnung die verwen¬ 
deten Verfahren samt ihrer Komplexität 
an. 
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Rückgekoppelte Netze 


Gedanken über Netze, welche eigene interne Zustände besitzen. 


Kann mehr 
als MLP 


Rückgekoppelte Netze im Allgemeinen be¬ 
zeichnen Netze, die die Fähigkeit haben, 
sich durch Rückkopplungen selbst zu be¬ 
einflussen, beispielsweise indem die Aus¬ 
gabe des Netzes in die folgenden Berech¬ 
nungsschritte mit eingeht. Es gibt viele Ar¬ 
ten rückgekoppelter Netze von nahezu be¬ 
liebiger Gestalt, fast alle überschneidend 
als rückgekoppelte Neuronale Netze 
bezeichnet - demzufolge verwende ich für 
die wenigen hier vorgestellten Paradig¬ 
men den Namen rückgekoppelte Multi¬ 
lay erperceptrons. W Dass man mit ei¬ 
nem rückgekoppelten Netz mehr berech¬ 
nen kann als mit einem normalen MLP, 
ist offensichtlich: Setzt man die Rückkopp- 
lungsgewichte auf 0, reduziert man das 
rückgekoppelte Netz ja auf ein normales 
MLP. Insbesondere erzeugt die Rückkopp¬ 
lung verschiedene netzinterne Zustände, so 
dass auch auf gleiche Eingaben im Kontext 
des Netzzustands verschiedene Ausgaben 
ausgegeben werden können. 

Rückgekoppelte Netze an sich besitzen ei¬ 
ne große Dynamik, die mathematisch sehr 
schwer zu erfassen und äußerst umfang¬ 


reich zu betrachten ist. Das Ziel dieses Ka¬ 
pitels wird es nur sein, kurz zu betrachten, 
wie Rückkopplungen aufgebaut sein kön¬ 
nen und netzinterne Zustände erzeugt wer¬ 
den können. So werde ich nur kurz zwei Pa¬ 
radigmen rückgekoppelter Netze vorstel¬ 
len, und anschließend grob deren Training 
umreißen. 


Bei einem rückgekoppelten Netz können 
für eine zeitlich konstante Eingabe x 
verschiedene Dinge passieren: Zum einen 
kann das Netz konvergieren, sich also in 
einen festen Zustand bringen und irgend¬ 
wann eine feste Ausgabe y ausgeben, oder 
es konvergiert eben nicht bzw. nach so lan¬ 
ger Zeit, dass wir es nicht mehr mitbekom¬ 
men, was eine ständige Veränderung von 
y zur Folge hat. 


Falls es nicht konvergiert, kann man bei¬ 
spielsweise die Ausgabe auf Periodika 


oder Attraktoren (Abb. 7.1 auf der fol¬ 


genden Seite) untersuchen - wir können 


hier die komplette Vielfalt von dynami¬ 
schen Systemen erwarten, weswegen ich 


Zustands¬ 

dynamik 
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Kapitel 7 Rückgekoppelte Netze (baut auf Kap.jijauf) 



Abbildung 7.1: Der Rössler-Attraktor 


auch speziell auf die Literatur zu dynami¬ 
schen Systemen verweisen möchte. 

Durch weitergehende Betrachtungen kann 
man dann herausfinden, was passiert, 
wenn bei rückgekoppelten Netzen der In¬ 
put verändert wird. 


von sogenannten Kontextneuronen 
k\, & 2 , ■ • •, k\K\ ~ pro Output-Neuron 
existiert ein Kontextneuron (illustriert 
in Abb. 7.2 auf der rechten Seite). Ein 
Kontextneuron macht im Grunde nichts 
anderes, als einen Output zwischenzuspei¬ 
chern, so dass er im nächsten Zeitschrift 
verwertet werden kann. Es gibt also 
gewichtete Verbindungen von jedem 
Ausgabeneuron zu einem Kontextneuron. 
Die gespeicherten Werte werden durch 
Vollverknüpfungen von den Kontextneu¬ 
ronen zur Eingabeschicht wieder an das 
eigentliche Netz zurückgegeben. 


In der ursprünglichen Definition eines Jor¬ 
dannetzes sind die Kontextneurone auch 
noch über ein Verbindungsgewicht A zu 
sich selbst rückgekoppelt - in den meis¬ 
ten Anwendungen wird diese Rückkopp¬ 
lung aber weggelassen, da das Jordannetz 
ohne diese zusätzlichen Rückkopplungen 
schon sehr dynamisch und schwer analy¬ 
sierbar ist. 


Definition 7.1 (Kontextneuron). Ein 
Kontextneuron k nimmt einen Outputwert 
eines anderen Neurons i zu einem Zeit¬ 
punkt t entgegen und gibt diesen im Zeit¬ 
punkt (t + 1) wieder in das Netz ein. 


Vorgestellt werden sollen in diesem Kapi¬ 
tel die verwandten Paradigmen rückgekop¬ 
pelter Netze nach Jordan und Elman. 


7.1 Jordannetze 


Ein Jordannetz |Jor86 ist ein Mul- 
tilayerperceptron mit einer Menge K 


Definition 7.2 (Jordannetz). Ein Jor¬ 
dannetz ist ein Multilayerperceptron, wel¬ 
ches pro Outputneuron ein Kontextneu¬ 
ron besitzt. Die Menge der Kontextneu¬ 
rone nennen wir K. Die Kontextneurone 
sind vollverknüpft in Richtung der Einga¬ 
beschicht des Netzes. 


Ausgabe¬ 

neurone 

werden 

gepuffert 
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7.2 Elmannetze 



Abbildung 7.2: Darstellung eines Jordannetzes. Die Ausgabe des Netzes wird in den Kontextneu¬ 
ronen gepuffert und beim nächsten Zeitschritt zusammen mit der neuen Eingabe in das Netz 
eingebracht. 


7.2 Elmannetze formationsverarbeitende Teil 1 des MLPs 

noch einmal als „Kontextversion“ - was 
die Dynamik und Zustands Vielfalt noch 
einmal wesentlich erhöht. 


Fast alles 
wird 
gepuffert 


Auch die Elmannetze (eine Variation 
der Jordannetze) |Elm90 haben Kontext¬ 
neurone - allerdings pro informationsver¬ 
arbeitender Neuronenschicht eine Schicht 
Kontextneurone (Abb. 7.3 auf der fol¬ 


genden Seite). Die Ausgaben eines jeden 


versteckten Neurons oder Ausgabeneurons 
werden also in die zugehörige Kontext¬ 
schicht geleitet (wieder pro Neuron ge¬ 
nau ein Kontextneuron) und von da im 
nächsten Zeitschritt wieder in die komplet¬ 
te Neuronenschicht eingegeben (auf dem 
Rückweg also wieder eine Vollverknüp¬ 
fung). Es existiert also der gesamte in- 


Gegenüber Jordannetzen haben Elmannet¬ 
ze oft den Vorteil, etwas zielgerichteter zu 
agieren, da jede Schicht auf ihren eigenen 
Kontext zurückgreifen kann. 

Definition 7.3 (Elmannetz). Ein Elman- 
netz ist ein MLP, welches pro informations¬ 
verarbeitendem Neuron ein Kontextneu¬ 
ron besitzt. Die Menge der Kontextneu- 
rone nennen wir K. Pro informationsver¬ 
arbeitender Neuronenschicht existiert al¬ 
so eine Kontextschicht mit exakt gleich- 

1 Wir erinnern uns: die Inputschicht ist nicht infor¬ 
mationsverarbeitend 
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Abbildung 7.3: Darstellung eines Elmannetzes. Der ganze informationsverarbeitende Teil des Net¬ 
zes ist sozusagen zweimal vorhanden. Die Ausgabe eines jeden Neurons (bis auf die der Eingabeneu¬ 
rone) wird gepuffert und in die zugeordnete Schicht wieder eingegeben. Ich habe die Kontextneurone 
zur Übersichtlichkeit anhand ihrer Vorbilder im eigentlichen Netz benannt, das muss man aber nicht 
so machen. 
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7.3 Training rückgekoppelter Netze 


vielen Kontextneuronen. Jedes Neuron be¬ 
sitzt eine gewichtete Verbindung zu exakt 
einem Kontextneuron, während die Kon¬ 
textschicht in Richtung ihrer Ursprungs¬ 
schicht voll verknüpft ist. 


Interessant ist nun, das Training rückge¬ 
koppelter Netze zu betrachten, da z.B. das 
normale Backpropagation of Error nicht 
auf rückgekoppelten Netzen funktionieren 
kann. Dieser Teil ist wieder etwas informel¬ 
ler gehalten, so dass ich dort keine forma¬ 
len Definitionen verwenden werde. 


7.3 Training rückgekoppelter 
Netze 


Um das Training so anschaulich wie mög¬ 
lich darzustellen, müssen wir einige Verein¬ 
fachungen verabreden, die das Lernprinzip 
an sich aber nicht beeinträchtigen. 

Gehen wir für das Training also davon aus, 
dass die Kontextneurone zu Anfang mit ei¬ 
ner Eingabe initiiert werden, da sie sonst 
eine Undefinierte Eingabe haben (das ist 
keine Vereinfachung, sondern wird tatsäch¬ 
lich gemacht). 

Weiterhin verwenden wir für unsere Trai¬ 
ningsgehversuche ein Jordannetz, welches 
keine versteckte Neuronenschicht hat, so 
dass die Outputneurone direkt wieder In¬ 
put liefern. Dies ist eine starke Vereinfa¬ 
chung, da in der Regel kompliziertere Net¬ 
ze verwendet werden. Dies verändert so¬ 
weit aber nichts am Lernprinzip. 


7.3.1 Unfolding in Time 


Erinnern wir uns an unser eigentliches 
Lernverfahren für MLPs, Backpropagation 
of Error, das die Deltawerte rückwärts pro¬ 
pagiert. Im Falle rückgekoppelter Netze 
würden die Deltawerte also zyklisch immer 
wieder rückwärts durch das Netz propa¬ 
giert, was das Training schwieriger macht. 
Zum einen kann man nicht wissen, welche 
der vielen generierten Deltawerte für ein 
Gewicht nun für das Training gewählt wer¬ 
den sollen, also sinnvoll sind, zum anderen 
können wir auch nicht unbedingt wissen, 
wann das lernen nun beendet werden soll. 
Der Vorteil von rückgekoppelten Netzen 
ist eine große Zustandsdynamik innerhalb 
des Netzbetriebs - der Nachteil rückgekop¬ 
pelter Netze ist, dass diese Dynamik auch 
dem Training zuteil wird und dieses somit 
erschwert. 


Ein Lernansatz wäre der Versuch, die zeit¬ 
lichen Zustände des Netzes aufzufalten 
(Abb. 7.4 auf Seite 133): Man löst die Re¬ 
kursionen auf, indem man ein gleichförmi¬ 
ges Netz über die Kontextneurone setzt, al¬ 
so die Kontextneurone sozusagen die Aus¬ 
gabeneurone des angefügten Netzes bilden. 
Allgemeiner ausgedrückt, Verfolgt man die 
Rekurrenzen zurück und hängt so „frühe¬ 
re“ Instanzen von Neuronen in das Netz 
ein. So erzeugt man ein Großes, vorwärts¬ 
gerichtetes Netz, verliert aber im Gegen¬ 
zug die Rekurrenzen und kann so das Netz 
mit Verfahren für nicht-rekurrente Netze 
trainieren In jede „Kopie“ der Eingabeneu¬ 
rone wird hierbei die Eingabe als Teaching 
Input eingegeben. Dies kann man für ei¬ 
ne diskrete Anzahl Zeitschritte tun. Wir 


Jeweils an 
Kontext¬ 
schicht 
gleiches 
Netz hängen 
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nennen dieses Trainingsparadigma Unfol- 
ding in Time |MP69 . Nach der Auffal¬ 
tung ist ein Training durch Backpropaga¬ 
tion of Error möglich. 


dass man an diese Grenze stößt). Weiter¬ 
hin kann das Verfahren bei mehreren Ebe¬ 
nen Kontextneurone sehr große zu trainie¬ 
rende Netze produzieren. 


Offensichtlich erhält man für ein Gewicht 
Wij aber mehrere Änderungswerte Aw l j. 
mit denen man auf verschiedene Wei¬ 
se verfahren kann: Aufkumulieren, Durch¬ 
schnittsberechnung, etc. Kumuliert man 
sie einfach auf, können sich u.U. zu große 
Änderungen pro Gewicht ergeben, falls al¬ 
le Änderungen das gleiche Vorzeichen ha¬ 
ben. Demzufolge ist auch der Durchschnitt 
nicht zu verachten. Man könnte auch einen 
discounting factor einführen, der den Ein¬ 
fluss weiter in der Vergangenheit liegender 
A Wij abschwächt. 

Unfolding in Time ist besonders dann sinn¬ 
voll, wenn man den Eindruck hat, dass 
die nähere Vergangenheit wichtiger für das 
Netz ist als die weiter entfernte, da Back¬ 
propagation in den von der Ausgabe wei¬ 
ter entfernten Schichten nur wenig Ein¬ 
fluss hat (wir erinnern uns: Der Einfluss 
von Backpropagation wird immer kleiner, 
je weiter man von der Ausgabeschicht weg¬ 
geht). 

Nachteile: Das Training des so ausein¬ 
andergefalteten Netzes kann sehr lange 
dauern, da man unter Umständen eine 
große Anzahl Schichten produziert. Ein 
nicht mehr vernachlässigbares Problem ist 
die begrenzte Rechengenauigkeit norma¬ 
ler Computer, die bei derartig vielen ge¬ 
schachtelten Rechnungen sehr schnell er¬ 
schöpft ist (der Einfluss von Backpropaga¬ 
tion wird, je weiter man von den Ausga¬ 
beschichten weg kommt, immer kleiner, so 


7.3.2 Teacher Forcing 

Weitere Verfahren sind die deckungsglei¬ 
chen Teacher Forcing und Open Loop 
Learning. Sie schneiden während des Ler¬ 
nens die Rückkopplung auf: Während des 
Lernens tun wir einfach so, als gäbe es 
die Rückkopplung nicht, und legen den Te- 
aching Input während des Trainings an 
den Kontextneuronen an. Auch so wird ein 
Backpropagation-Training möglich. Nach¬ 
teil: Ein Teaching Input bei Kontext¬ 
neuronen oder allgemein nicht-ausgabe- 
Neuronen ist ja nicht verfügbar. 

7.3.3 Rekurrentes Backpropagation 

Ein weiteres beliebtes Verfahren ohne be¬ 
schränkten Zeithorizont ist rekurrentes 
Backpropagation , das dem Problem mit 
Hilfe von Lösungsmethoden für Differenti¬ 
algleichungen zu Leibe rückt |Pin87 . 

7.3.4 Training mit Evolution 

Gerade bei rückgekoppelten Netzen haben 
sich aufgrund des ohnehin langen Trai¬ 
nings evolutionäre Algorithmen be¬ 
währt, da diese nicht nur in Bezug auf 
Rückkopplungen keinen Beschränkungen 
unterliegen, sondern bei geeigneter Wahl 
der Mutationsmechanismen auch weitere 
Vorteile haben: So können zum Beispiel 


Teaching 
Input an 
Kontext¬ 
neurone 
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7.3 Training rückgekoppelter Netze 



Abbildung 7.4: Darstellung des Unfolding in Time bei einem kleinen beispielhaften rückgekoppel¬ 
ten MLP. Oben: Das rückgekoppelte MLP. Unten: Das aufgefaltete Netz. Um der Übersichtlichkeit 
zu dienen, habe ich im aufgefalteten Netz nur dem untersten Teilnetz Benennungen hinzugefügt. 
Gepunktete Pfeile, welche in das Netz hineinführen, markieren Eingaben. Gepunktete Pfeile, welche 
aus dem Netz herausführen, markieren Ausgaben. Jede „Netzkopie" repräsentiert einen Zeitschritt 
des Netzes, unten ist der aktuellste Zeitschritt. 
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Kapitel 7 Rückgekoppelte Netze (baut auf Kap.jijauf) 


Neurone und Gewichte angepasst und so 
die Netztopologie optimiert werden (es 
muss dann nach dem Lernen natürlich kein 
Jordan- oder Elmannetz herauskommen). 
Bei normalen MLPs hingegen sind die Evo¬ 
lutionsstrategien weniger gefragt, da sie 
natürlich viel mehr Zeit benötigen als ein 
gerichtetes Lernverfahren wie Backpropa¬ 
gation. 
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Hopfieldnetze 


ln einem magnetischen Feld übt jedes Teilchen Kraft auf jedes andere Teilchen 
aus, so dass sich die Teilchen insgesamt so ausrichten, wie es am energetisch 
günstigsten für sie ist. Wir kopieren diesen Mechanismus der Natur, um 
verrauschte Eingaben zu ihren richtigen Vorbildern zu korrigieren. 


Ein weiteres überwacht lernendes Beispiel 
aus dem Zoo der Neuronalen Netze wurde 
von John Hopfield entwickelt: die nach 
ihm benannten Hopfieldnetze |Hop82 . 
Hopfield und seine physikalisch motivier¬ 
ten Netze haben viel zur Renaissance der 
Neuronalen Netze beigetragen. 

8.1 Hopfieldnetze sind 

inspiriert durch Teilchen 
in einem magnetischen 
Feld 

Die Idee für die Hopfieldnetze ist aus dem 
Verhalten von Teilchen im Magnetismus 
entstanden: Jedes Teilchen „redet“ (durch 
die magnetischen Kräfte) mit jedem an¬ 
deren (also eine Vollverknüpfung), wobei 
es aber jeweils versucht, einen energetisch 
günstigen Zustand (sozusagen ein Mini¬ 
mum der Energiefunktion ) zu erreichen. 


Diesen Eigenzustand kennen wir bei den 
Neuronen als Aktivierung. Die Teilchen 
bzw. Neurone drehen sich also alle und ani¬ 
mieren sich dadurch wieder gegenseitig zur 
Drehung. Unser Neuronales Netz ist also 
sozusagen eine Wolke von Teilchen. 


Ausgehend von der Tatsache, dass die Teil¬ 
chen die Minima in der Energiefunktion 
selbsttätig aufspüren, hatte Hopfield nun 
die Idee, den „Drehwinkel“ der Teilchen 
zu nutzen, um Informationsverarbeitung 
zu betreiben: Warum nicht die Teilchen 
auf selbstdefinierten Funktionen Minima 
suchen lassen? Selbst wenn wir nur zwei 
dieser Drehwinkel (Spins) verwenden, al¬ 
so eine binäre Aktivierung, werden wir fest¬ 
stellen, dass das entwickelte Hopfieldnetz 
erstaunliche Dynamik besitzt. 
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Abbildung 8.1: Darstellung eines beispielhaften 
Hopfieldnetzes. Die Pfeile f und j, markieren 
die binären „Drehwinkel". Durch die vollständige 
Verknüpfung der Neurone können keine Schich¬ 
ten voneinander abgegrenzt werden, so dass ein 
Hopfieldnetz einfach eine Menge von Neuronen 
umfasst. 


8.2 In einem Hopfieldnetz 
beeinflussen sich alle 
Neurone symmetrisch 
gegenseitig 


Die Voll Verknüpfung sorgt dafür, dass wir 
eine volle quadratische Matrix an Gewich¬ 
ten unter den Neuronen haben. Was die 
Gewichte bedeuten, wollen wir gleich er¬ 
forschen. Weiter werden wir gleich durch¬ 
schauen, nach welchen Regeln die Neurone 
sich drehen, also ihren Zustand ändern. 

Die Vollverknüpfung sorgt weiterhin dafür, 
dass wir keine Input-, Output- oder ver¬ 
steckten Neurone kennen. Wir müssen uns 
also Gedanken machen, wie wir etwas in 
die \K\ Neurone eingeben. 

Definition 8.1 (Hopfieldnetz). Ein Hop¬ 
fieldnetz besteht aus einer Menge K von 
vollverknüpften Neuronen ohne direkte 
Rückkopplungen. Die Aktivierungsfunkti¬ 
on der Neurone ist die binäre Schwellen¬ 
wertfunktion mit Ausgaben £ {1,-1}. 

Definition 8.2 (Zustand eines Hopfield¬ 
netzes) . Die Gesamtheit der Aktivierungs¬ 
zustände aller Neurone ist der Zustand des 
Netzes. Der Netzzustand kann also als Bi¬ 
närstring z £ {—1,aufgefasst wer¬ 
den. 


I< 


Vollständig 

verknüpfte 

Neuronen¬ 

menge 


Kurz gesagt besteht ein Hopfieldnetz al¬ 
so aus einer Menge K von untereinander 
vollverknüpften Neuronen mit binärer Ak¬ 
tivierung (wir verwenden ja nur zwei Dreh¬ 
winkel), wobei die Gewichte zwischen den 
einzelnen Neuronen symmetrisch sind und 
ein Neuron keine Direktverbindung zu sich 
selbst aufweist (Abb. 8.1). Der Zustand 
von \K\ vielen Neuronen mit zwei mögli¬ 
chen Zuständen £ {—1,1} lässt sich also 
durch eine Zeichenkette x £ {—1,1}^ be¬ 
schreiben. 


8.2.1 Eingabe und Ausgabe eines 
Hopfieldnetzes werden durch 
Neuronenzustände 
repräsentiert 

Wir haben gelernt, dass das Netz, also 
die Menge der \K\ vielen Teilchen, von ei¬ 
nem Zustand aus selbsttätig ein Minimum 
sucht. Ein Inputmuster eines Hopfieldnet¬ 
zes ist genau so ein Zustand: Ein Binär¬ 
string x £ {—1,1}^, welcher die Neuro¬ 
ne initialisiert. Das Netz sucht dann zur 
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8.2 Aufbau und Funktionsweise 


Eingabe und 
Ausgaben = 
Netzzustände 


konvergiert 

immer 


Eingabe das Minimum auf seiner Energie¬ 
oberfläche (das wir vorher durch Eingabe 
von Trainingsbeispielen selbst definiert ha¬ 
ben). 


Woher wissen wir nun, dass das Minimum 
gefunden ist? Auch das ist einfach: Wenn 
das Netz stillsteht. Man kann beweisen, 
dass ein Hopfieldnetz mit symmetrischer 
Gewichtsmatrix und Nullen in der Diago¬ 
nale immer konvergiert |CG88| , es wird 
also irgendwann still stehen. Die Ausgabe 
ist dann ein Binärstring y E {—1,1}^, 
nämlich die Zustandszeichenkette des Net¬ 
zes, das ein Minimum gefunden hat. 


Betrachten wir nun die Inhalte der Ge¬ 
wichtsmatrix und die Regeln für den Zu¬ 
standswechsel der Neurone etwas genau¬ 
er. 


Definition 8.3 (Eingabe und Ausgabe 
eines Hopfieldnetzes). Die Eingabe in 
ein Hopfieldnetz ist ein Binärstring x E 
{—1,welcher den Netzzustand initia¬ 
lisiert. Nach erfolgter Konvergenz des Net¬ 
zes ist der aus dem neuen Netzzustand er¬ 
zeugte Binärstring y E {—1,1}^ die Aus¬ 
gabe. 


8.2.2 Bedeutung der Gewichte 

Wir haben gesagt, dass die Neurone ihre 
Zustände, also ihre Ausrichtung von —1 
nach 1 oder umgekehrt ändern. Diese Dre¬ 
hungen finden abhängig von den aktuel¬ 
len Zuständen der anderen Neurone und 
von den Gewichten zu diesen statt. Die Ge¬ 
wichte sind also in der Lage, die Gesamt¬ 
veränderung des Netzes zu steuern. Die Ge¬ 
wichte können positiv, negativ oder 0 sein. 


Hierbei gilt umgangsprachlich für ein Ge¬ 
wicht Wij zwischen zwei Neuronen i und 

3- 

Ist Wij positiv, versucht es die beiden 
Neurone zur Gleichheit zu zwingen, 
je größer Wij, desto stärker ist der 
Zwang. Wenn das Neuron i den Zu¬ 
stand 1 hat, das Neuron j aber den 
Zustand —1, vermittelt ein hohes po¬ 
sitives Gewicht den beiden Neuronen, 
dass es energetisch günstiger ist, wenn 
sie gleich sind. 

Ist Wij negativ, verhält es sich analog, 
nur werden hier i und j zur Unter¬ 
schiedlichkeit gedrängt. Ein Neuron i 
mit Zustand —1 würde versuchen, ein 
Neuron j in den Zustand 1 zu drän¬ 
gen. 

Null-Gewichte sorgen dafür, dass sich die 
beiden beteiligten Neurone nicht be¬ 
einflussen. 

Die Gesamtheit der Gewichte beschreibt 
also offensichtlich den Weg zum nächsten 
Minimum der Energiefunktion vom aktuel¬ 
len Netzzustand aus - wir wollen nun un¬ 
tersuchen, auf welche Weise die Neurone 
diesen Weg einschlagen. 


8.2.3 Ein Neuron wechselt den 
Zustand anhand des 
Einflusses der anderen 
Neurone 


Die Funktionsweise des einmal trainierten 
und mit einem Anfangszustand initialisier- 
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Heaviside-Funktion 



x 


Abbildung 8.2: Darstellung der binären 
Schwellenwertfunktion. 


ten Netzes liegt darin, die Zustände Xk der 
einzelnen Neurone k nach dem Schema 


•^kiß) — /act 



Xj{t- 1) (8.1) 


mit jedem Zeitschritt zu ändern, wobei 
die Funktion / act in aller Regel die bi¬ 


näre Schwellenwert-Funktion (Abb. 8.2) 


mit Schwellenwert 0 ist. Umgangssprach¬ 
lich: Ein Neuron k berechnet die Summe 
der Wj t k-Xj(t— 1), die angibt, wie stark und 
in welche Richtung das Neuron k von den 
anderen Neuronen j gedrängt wird. Der 
neue Zustand des Netzes (Zeitpunkt t) er¬ 
gibt sich also aus dem Netzzustand zum 
vorherigen Zeitpunkt t — 1. Die Summe er¬ 
gibt dann die Gesamtrichtung, in die das 
Neuron k gedrängt wird. Je nach Vorzei¬ 
chen der Summe nimmt das Neuron den 
Zustand 1 oder —1 an. 


Ein weiterer Unterschied der Hopfieldnet¬ 
ze zu anderen Netztopologien, welche wir 


bereits kennengelernt haben, ist das asyn¬ 
chrone Update: Es wird jedes mal ein Neu¬ 
ron k zufällig gewählt, welches dann die 
Aktivierung neu errechnet. Die neuen Ak¬ 
tivierungen der jeweils vorher geänderten 
Neurone nehmen also direkt Einfluss, ein 
Zeitschrift bezeichnet also die Änderung 
eines einzigen Neurons. 

Ungeachtet der hier beschriebenen zufäl¬ 
ligen Wahl des Neurons findet die Imple¬ 
mentierung eines Hopfieldnetzes oft ein¬ 
facher statt: die Neurone werden einfach 
nacheinander durchgegangen und deren 
Aktivierungen neu berechnet - so lange, 
bis sich nichts mehr ändert. 

Definition 8.4 (Zustandswechsel eines 
Hopfieldnetzes). Der Zustandswechsel der 
Neurone findet asynchron statt, wobei das 
zu aktualisierende Neuron jeweils zufäl¬ 
lig bestimmt wird und der neue Zustand 
durch die Vorschrift 


x k (t) 


/act 


W 3,k ■Xj(t-l) 

\jeK 


gebildet wird. 


Nachdem wir jetzt wissen, wie die Gewich¬ 
te die Zustandsänderungen der Neurone 
beeinflussen und das gesamte Netz in Rich¬ 
tung eines Minimums treiben, ist nun noch 
die Frage offen, wie man den Gewichten 
beibringt, das Netz in Richtung eines be¬ 
stimmten Minimums zu treiben. 


Zufälliges 

Neuron 

berechnet 

neue 

Aktivierung 
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8.3 Erzeugen der Gewichtsmatrix 


8.3 Die Gewichtsmatrix wird 
direkt anhand der 
Trainingsbeispiele erzeugt 

Es ist das Ziel, Minima auf der genannten 
Energieoberfläche zu erzeugen, in die das 
Netz bei einer Eingabe konvergiert. Wie 
schon bei vielen anderen Netzparadigmen, 
verwenden wir hier wieder eine Menge P 
von Mustereingaben p G {1,— 1}I^I, die 
die Minima unserer Energieoberfläche dar¬ 
stellen. 

Im Unterschied zu vielen anderen Netz¬ 
paradigmen suchen wir hier nicht die Mi¬ 
nima einer uns unbekannten Fehlerfunkti¬ 
on, sondern definieren uns selbst Minima 
auf einer solchen - mit dem Zweck, dass 
das Netz das naheliegendste Minimum von 
selbst annehmen soll, wenn man ihm eine 
Eingabe präsentiert. Dies ist für uns erst 
einmal ungewohnt - den Sinn und Zweck 
werden wir aber noch verstehen. 

Das Training eines Hopfieldnetzes spielt 
sich grob gesagt so ab, dass man jedes Trai¬ 
ningsmuster genau einmal mit der im Fol¬ 
genden beschriebenen Vorschrift trainiert 
(Single Shot Learning ), wobei pi und pj 
die Zustände der Neurone i und j in dem 
Beispiel p G P sind: 

w i,j = J2Pi-Pj ( 8 - 2 ) 

peP 

Hieraus ergibt sich dann die Gewichtsma¬ 
trix W. Umgangssprachlich: Wir initiali¬ 
sieren das Netz mit einem Trainingsmus¬ 
ter, und gehen dann alle Gewichte Wij 
durch. Für jedes dieser Gewichte schauen 


wir: Sind die Neurone i,j im gleichen Zu¬ 
stand oder sind die Zustände unterschied¬ 
lich? Im ersten Fall addieren wir 1 zum 
Gewicht, im zweiten Fall —1. 

Dies machen wir für alle Trainingsmuster 
p G P. Zum Schluss haben also Gewich¬ 
te Wij hohe Werte, wenn i und j bei vie¬ 
len Trainingsmustern übereingestimmt ha¬ 
ben. Der hohe Wert sagt diesen Neuronen 
umgangssprachlich: „Es ist sehr oft ener¬ 
getisch günstig, wenn ihr den gleichen Zu¬ 
stand innehabt“. Entsprechendes gilt für 
negative Gewichte. 

Durch dieses Training können wir also eine 
gewisse feste Anzahl Muster p in der Ge¬ 
wichtsmatrix abspeichern. Das Netz wird 
dann bei einer Eingabe x zu dem abgespei¬ 
cherten Muster konvergieren, dass der Ein¬ 
gabe p am nächsten liegt. 

Leider ist die Zahl der maximal speicherba¬ 
ren und rekonstruierbaren Muster p auf 

|-P|max ~ 0.139 • \K\ (8.3) 

beschränkt, was auch wiederum nur für or¬ 
thogonale Muster gilt. Dies wurde durch 
genaue (und aufwändige) mathematische 
Analysen gezeigt, auf die wir jetzt nicht 
eingehen wollen. Gibt man mehr Muster 
als diese Anzahl ein, zerstört man bereits 
gespeicherte Informationen. 

Definition 8.5 (Lernregel für Hopfield- 
netze). Die einzelnen Elemente der Ge¬ 
wichtsmatrix W werden durch das einma¬ 
lige Ausführen der Lernregel 

w i,j = Pi ' Pi 

peP 
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a 


bestimmt, wobei die Diagonale der Matrix 
mit Nullen belegt ist. Hierbei können nicht 
mehr als |P|max ~ 0.139 • \K\ Trainings¬ 
beispiele funktionserhaltend trainiert wer¬ 
den. 


Wir haben nun die Funktionalität von 
Hopfieldnetzen kennen gelernt, jedoch 
noch nicht ihren praktischen Nährwert. 


8.4 Autoassoziation und 

traditionelle Anwendung 


Hopfieldnetze, wie sie oben beschrieben 
wurden, sind sogenannte Autoassoziato- 
ren. Ein Autoassoziator a legt genau das 
oben beschriebene Verhalten an den Tag: 
Erstens gibt er bei Eingabe eines bekann¬ 
ten Musters p genau dieses bekannte Mus¬ 
ter wieder aus, es gilt also 


der Lage sein, deformierte oder verrausch¬ 
te Buchstaben mit hoher Wahrscheinlich¬ 


keit richtig zu erkennen (Abb. 8.3 auf der 


rechten Seite). 


Anwendung von Hopfieldnetzen sind da¬ 
her prinzipiell Mustererkennung und 
Mustervervollständigung, so zum Beispiel 
Ende der 1980er Jahre die Erkennung 
von Postleitzahlen auf Briefen. Bald sind 
die Hopfieldnetze aber in den meisten ih¬ 
rer Anwendungsgebiete von anderen Sys¬ 
temen überholt worden, so in der Buch- 
stabenerkennung von modernen OCR- 
Systemen. Heute werden Hopfieldnetze so 
gut wie überhaupt nicht mehr verwendet, 
sie haben sich nicht durchgesetzt. 


8.5 Heteroassoziation und 
Analogien zur neuronalen 
Datenspeicherung 


Netz 

restauriert 

kaputte 

Eingaben 


a{p) = p, 

wobei a die Assoziator-Abbildung ist. Zum 
Zweiten, und genau hier liegt der Nähr¬ 
wert des Ganzen, funktioniert das auch 
mit Eingaben, die in der Nähe von einem 
Muster liegen: 

a(p + e) = p. 

Der Autoassoziator ist hinterher in jedem 
Fall in einem stabilen Zustand, nämlich im 
Zustand p. 

Nimmt man als Mustermenge P beispiels¬ 
weise Buchstaben oder sonstige Schriftzei¬ 
chen in Pixelform, so wird das Netz in 


Bis jetzt haben wir Hopfieldnetze kennen¬ 
gelernt, die für eine beliebige Eingabe in 
das naheliegendste Minimum einer stati¬ 
schen Energieoberfläche konvergieren. 

Eine weitere Variante wäre eine dynami¬ 
sche Energieoberfläche: Hier sieht die Ener¬ 
gieoberfläche je nach aktuellem Zustand 
anders aus und wir erhalten keinen Autoas¬ 
soziator mehr, sondern einen Heteroas- 
soziator. Für einen Heteroassoziator gilt 
nicht mehr 

a{p + e) = p, 
sondern vielmehr 

h(p + e) = q, 
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8.5 Heteroassoziation und Analogien zur neuronalen Datenspeicherung 



was bedeutet, dass ein Muster auf 
ein anderes abgebildet wird, h ist die 
Heteroassoziator-Abbildung. Man erreicht 
solche Heteroassoziationen durch eine 
asymmetrische Gewichtsmatrix V. 

Durch hintereinandergeschaltete Heteroas¬ 
soziationen der Form 

hip + e) = q 
h{q + e) = r 
h{r + s) = s 


h{z + e) = p 

wird es möglich, einen schnellen Zustands¬ 
durchlauf 

p q —> r ^ s —> —> z —> p 

zu provozieren, wobei ein einzelnes Mus¬ 
ter aber niemals vollständig angenommen 
wird: Bevor ein Muster vollständig zustan¬ 
degekommen ist, versucht die Heteroasso¬ 
ziation ja bereits, dessen Nachfolger zu er¬ 
zeugen. Außerdem würde unser Netz nie 
zum Stillstand kommen, da es ja nach Er¬ 
reichen des letzten Zustands z wieder zum 
ersten Zustand p übergeht. 


h 


Abbildung 8.3: Darstellung der Konvergenz ei¬ 
nes beispielhaften Hopfieldnetzes. Jedes der Bil¬ 
der hat 10 x 12 = 120 binäre Pixel. Jeder Pixel 
entspricht im Hopfieldnetz einem Neuron. Oben 
sind die Trainingsbeispiele abgebildet, unten die 
Konvergenz einer stark verrauschten 3 zum kor¬ 
respondierenden Trainingsbeispiel. 


8.5.1 Erzeugung der 

Heteroassoziationsmatrix 

Wir erzeugen die Matrix V mit Elementen 
v sehr ähnlich der Autoassoziationsmatrix, 
wobei (pro Übergang) p das Trainingsbei¬ 
spiel vor dem Übergang ist und q das aus 
p zu erzeugende Trainingsbeispiel: 

vi,j = pw ( 8 - 4 ) 


V 

V 

q 
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Netz 

durchläuft 

Zustände 

instabil 


Die Diagonale der Matrix ist wieder mit 
Nullen belegt. Die Adaption der Neuro¬ 
nenzustände erfolgt im laufenden Betrieb, 
wie gehabt. Mehrere Übergänge können 
einfach durch Aufsummierung in die Ma¬ 
trix eingebracht werden, wobei auch hier 
wieder die genannte Begrenzung gegeben 
ist. 

Definition 8.6 (Lernregel für Heteroas¬ 
soziationsmatrix). Für zwei Trainingsbei¬ 
spiele p als Vorgänger und q als Nachfol¬ 
ger eines Heteroassoziationsübergangs er¬ 
geben sich die Gewichte der Heteroassozia¬ 
tionsmatrix V durch die Lernregel 


Muster autoassoziiert, und einer, der ver¬ 
sucht, eben dieses Muster in seinen Nach¬ 
folger umzuwandeln. Die Assoziationsregel 
bewirkt hierbei, dass das Netz ein Mus¬ 
ter stabilisiert, dort eine Weile bleibt, zum 
nächsten Muster übergeht, und so wei¬ 
ter. 


Xi(t + 1) = 

( 


(8.5) 

\ 


./ad 


Y w i,jXj(t) + Y v i,kXk{t - A t) 


j&K 

' Autoassoziation 


k£K 

V* 

Heteroassoziation 


7 


v i,j = Y PMv 

p,?eP,p^<j 

wobei sich mehrere Heteroassoziationen 
durch einfache Aufsummierung in ein Netz 
einbringen lassen. 

8.5.2 Stabilisierung der 

Heteroassoziationen 

Wir haben oben das Problem angespro¬ 
chen, dass die Muster nicht vollständig er¬ 
zeugt werden, sondern schon vor Ende der 
Erzeugung bereits das nächste Muster in 
Angriff genommen wird. 

Dieses Problem kann umgangen werden, 
indem das Netz nicht nur durch die He¬ 
teroassoziationsmatrix V beeinflusst wird, 
sondern zusätzlich durch die bereits be¬ 
kannte Autoassoziationsmatrix W. 

Zusätzlich wird die Neuronenadaptionsre¬ 
gel so verändert, dass konkurrierende Ter¬ 
me entstehen: Einer, der ein vorhandenes 


Der Wert A t bewirkt hierbei anschaulich 
gesprochen, dass der Einfluss der Matrix 
V verzögert eintritt, da sie sich nur auf ei¬ 
ne um A t zurückliegende Version des Net¬ 
zes bezieht. Hierdurch ergibt sich ein Zu¬ 
standswechsel, in dem die einzelnen Zu¬ 
stände aber zwischendurch für kurze Zeit 
stabil sind. Setzen wir A t auf z.B. zwan¬ 
zig Schritte, so bekommt die asymmetri¬ 
sche Gewichtsmatrix jegliche Veränderung 
im Netz erst zwanzig Schritte später mit, 
so dass sie zunächst mit der Autoassoziati¬ 
onsmatrix zusammenarbeitet (da sie noch 
das Vorgängermuster vom aktuellen wahr¬ 
nimmt) und erst später gegen sie. 

8.5.3 Biologische Motivation der 
Heteroassoziation 

Die Übergänge von stabilen in andere 
stabile Zustände sind hierbei biologisch 
stark motiviert: Es gab zumindest Anfang 
der 1990er Jahre Vermutungen, dass mit 


A t 

Stabiler 

Durchlauf 
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8.6 Kontinuierliche Hopfieldnetze 


dem Hopfieldmodell eine Näherung der Zu¬ 
standsdynamik im Gehirn erreicht wird, 
welches vieles durch Zustandsketten reali¬ 
siert: Wenn ich Sie, lieber Leser, nun bitte, 
das Alphabet aufzusagen, werden Sie das 
in der Regel wesentlich besser schaffen als 
mir (bitte sofort versuchen) die Frage zu 
beantworten: 

Welcher Buchstabe folgt im Alphabet 
auf den Buchstaben P ? 

Ein anderes Beispiel ist das Phänomen, 
dass man etwas vergisst, jedoch den Ort 
noch kennt, an dem man zuletzt daran ge¬ 
dacht hat. Geht man nun an diesen Ort 
zurück, fällt einem das Vergessene oftmals 
wieder ein. 


8.6 Kontinuierliche 
Hopfieldnetze 


Bis jetzt haben wir nur Hopfieldnetze 
mit binären Aktivierungen erforscht. Hop- 
field beschrieb aber auch eine Version sei¬ 
ner Netze mit kontinuierlichen Aktivierun¬ 
gen |Hop84j|, die wir zumindest kurz an¬ 
schauen wollen: kontinuierliche Hop¬ 
fieldnetze. Hier wird die Aktivierung 
nicht mehr durch die binäre Schwellen¬ 
wertfunktion berechnet, sondern durch die 
Fermifunktion mit Temperaturparameter 

(Abb.O). 


Auch hier ist das Netz für symmetrische 
Gewichtsmatrizen mit Nullen auf der Dia¬ 
gonalen stabil. 


Hopfield selbst nennt als Anwendungs¬ 
beispiel für kontinuierliche Hopfieldnetze, 


Fermi-Funktion mit Temperaturparameter 



x 


Abbildung 8.4: Die bereits bekannte Fermi¬ 
funktion mit verschiedenen Variationen des 
Temperatu rparameters. 


recht gute Lösungen für das NP-harte 
Travelling Salesman Problem zu finden 
|HT85]. Nach einem in |Zel94j beschrie¬ 


benen Feldversuch kann dieses Statement 
aber nicht ohne weiteres aufrecht erhalten 
werden. Es gibt heute aber ohnehin schnel¬ 
lere Algorithmen, um gute Lösungen für 
dieses Problem zu finden, weswegen das 
Hopfieldnetz auch hier keine Anwendung 
mehr finden kann. 


Übungsaufgaben 


Aufgabe 15. Geben Sie den Speicherbe¬ 
darf für ein Hopfieldnetz mit \K\ = 1000 
Neuronen an, wenn die Gewichte Wij als 
ganze Zahlen gespeichert werden sollen. 
Kann der Wertebereich der Gewichte ein¬ 
gegrenzt werden, um Speicher zu sparen? 
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Aufgabe 16. Berechnen Sie die Gewich¬ 
te Wij für ein Hopfieldnetz unter Verwen¬ 
dung der Trainingsmenge 


P={(-1,-1, -1,-1,-1,1); 
(- 1 , 1 , 1 ,- 1 ,- 1 ,- 1 ); 
( 1 ,- 1 ,- 1 , 1 ,- 1 , 1 )}. 
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Kapitel 9 

Learning Vector Quantization 



Learning Vector Quantization ist ein Lernverfahren mit dem Ziel, in 
vordefinierte Klassen unterteilte Trainingsmengen von Vektoren durch wenige 
Repräsentanten-Vektoren möglichst gut wiederzugeben. Ist dies geschafft, so 
ist eine einfache Zuordnung bis dato unbekannter Vektoren in eine dieser 

Klassen möglich. 


Allmählich neigt sich Teil |TT] dieser Ar¬ 
beit dem Ende entgegen - und so möch¬ 
te ich auch ein Kapitel für den Abschluss 
dieses Teils schreiben, welches einen schö¬ 
nen Übergang darstellt: Ein Kapitel über 
die von Teuvo Kohonen beschriebene 
Learning Vector Quantization (Kurz: 
LVQ) |Koh89 , welche man als verwandt 
mit den Seif Organizing Feature Maps be¬ 
zeichnen kann. Diese werden direkt im An¬ 
schluss beschrieben, nämlich im nächsten 
Kapitel, welches sich bereits in Teil |III| der 
Arbeit befindet, da SOMs unüberwacht ler¬ 
nen. Ich möchte also nach der Untersu¬ 
chung von LVQ Abschied vom überwach¬ 
ten Lernen nehmen. 


Gleich im Voraus möchte ich ankündigen, 
dass es verschiedene Variationen von LVQ 
gibt, die ich zwar erwähnen, aber nicht 
genau darstellen werde - es ist mehr das 
Ziel dieses Kapitels, das zugrundeliegende 
Prinzip zu erforschen. 


9.1 Über Quantisierung 


Um die Learning Vector Quantization 
zu erforschen, sollten wir uns zunächst 
klarmachen, was denn Quantization, zu 
Deutsch Quantisierung ist, die man 
auch mit Diskretisierung bezeichnen 
kann. 

Jeder von uns kennt den diskreten Zahlen¬ 
raum 

N = {1,2,3,...}, 

in dem die natürlichen Zahlen liegen. Dis¬ 
kret bedeutet, dass dieser Raum aus von¬ 
einander abgetrennten Elementen besteht, 
die nicht miteinander verbunden sind. In 
unserem Beispiel sind diese Elemente eben 
diese Zahlen, denn in den natürlichen Zah¬ 
len gibt es ja beispielsweise keine Zahl zwi¬ 
schen 1 und 2. Kontinuierlich ist dage¬ 
gen beispielsweise der Raum der reellen 
Zahlen M: Egal, wie nah man daraus zwei 


Diskret 
= getrennt 
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Zahlen wählt, es wird immer eine Zahl zwi¬ 
schen ihnen geben. 

Quantisierung bedeutet nun die Untertei¬ 
lung eines kontinuierlichen Raums in dis¬ 
krete Abschnitte: Indem man der reellen 
Zahl 2.71828 beispielsweise alle Nachkom- 
mastellen entfernt, könnte man diese Zahl 
der natürlichen Zahl 2 zuweisen. Hierbei 
ist klar, dass jede andere Zahl mit einer 2 
vor dem Komma ebenfalls der natürlichen 
Zahl 2 zugewiesen würde, die 2 wäre also 
eine Art Repräsentant für alle reellen Zah¬ 
len im Intervall [2; 3). 


Zu beachten ist, dass wir einen Raum auch 
unregelmäßig quantisieren können: So wä¬ 
re der Zeitstrahl einer Woche beispielswei¬ 
se in Arbeitstage und Wochenende quanti- 
sierbar. 


Ein Spezialfall der Quantisierung ist die 
Digitalisierung : Im Fall der Digitalisie¬ 
rung sprechen wir immer von einer gleich¬ 
mäßigen Quantisierung eines kontinuierli¬ 
chen Raums in ein Zahlensystem zu einer 
bestimmten Basis. Geben wir beispiels¬ 
weise Zahlen in den Computer ein, werden 
diese in das Binärsystem (Basis 2) digita¬ 
lisiert. 


9.2 LVQ unterteilt den 

Eingaberaum in separate 
Bereiche 


Nun können wir schon fast anhand des Na¬ 
mens beschreiben, was LVQ uns ermögli¬ 
chen soll: Es soll einen Eingaberaum durch 
eine Menge von repräsentativen Vektoren 
in Klassen unterteilen, die ihn möglichst 


jrut wicdcracbcn f Abb. 9.1 auf der rechten. 


Seite). Jedes Element des Eingaberaums 


soll also einem Vektor als Repräsentanten, 
also einer Klasse zugeordnet werden kön¬ 
nen, wobei die Menge dieser Repräsentan¬ 
ten den ganzen Eingaberaum möglichst ge¬ 
nau repräsentieren soll. Einen solchen Vek¬ 
tor nennt man Codebookvektor. Ein Co- 
debookvektor ist dann der Repräsentant 
genau derjenigen Vektoren des Eingabe¬ 
raums, die am nächsten bei ihm liegen, 
was den Eingaberaum in besagte diskrete 
Bereiche unterteilt. 


Hervorzuheben ist, dass wir im Voraus wis¬ 
sen müssen, wieviele Klassen wir haben 
und welches Trainingsbeispiel zu welcher 
Klasse gehört. Weiter ist wichtig, dass die 
Klassen nicht disjunkt sein müssen, sie dür¬ 
fen sich also überlappen. 


Reduktion d. 
Eingabe¬ 
raums auf 
Vektoren- 
Repräsen- 
tanten 


Definition 9.1 (Quantisierung). Unter¬ 
teilung eines kontinuierlichen Raums in 
diskrete Abschnitte. 

Definition 9.2 (Digitalisierung). Gleich¬ 
mäßige Quantisierung. 


Solche Unterteilungen der Daten in Klas¬ 
sen sind interessant bei vielen Problemstel¬ 
lungen, bei denen es nützlich ist, anstatt 
der unter Umständen riesigen Ursprungs¬ 
menge von Daten nur ein paar typische 
Vertreter zu betrachten - sei es, weil es 
weniger Aufwand ist, oder weil es an Ge¬ 
nauigkeit einfach genügt. 
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9.4 Ausrichtung der Codebookvektoren 



Abbildung 9.1: Beispielquantisierungen eines zweidimensionalen Eingaberaums. Die Linien stellen 
die Klassengrenzen dar, die x markieren die Codebookvektoren. 


9.3 Benutzung von 9.4 Ausrichtung der 

Codebookvektoren: Der Codebookvektoren 

nächste gewinnt 


Nächster 

Vektor 

gewinnt 


Die Benutzung eines einmal angefertig¬ 
ten Satzes Codebookvektoren ist sehr ein¬ 
fach: Für einen Eingabevektor y entschei¬ 
det man die Klassenzugehörigkeit ganz ein¬ 
fach daran, welcher Codebookvektor am 
nächsten zu ihm liegt — die Codebookvek¬ 
toren bilden also ein Voronoidiagramm 
in unserer Eingabemenge. Da jeder Code¬ 
bookvektor eindeutig einer Klasse zuzuord¬ 
nen ist, ist hierdurch jeder Eingabevektor 
einer Klasse zugeordnet. 


Wie wir schon angedeutet haben, han¬ 
delt es sich bei LVQ um ein überwach¬ 
tes Lernverfahren. Wir besitzen also einen 
Teaching Input, der dem Lernverfahren 
sagt, ob ein Eingangsmuster richtig oder 
falsch klassifiziert wurde: Anders ausge¬ 
drückt müssen wir bereits im Vorhinein 
die Anzahl der zu repräsentierenden Klas¬ 
sen bzw. die Anzahl der Codebookvekto¬ 
ren kennen. 

Das Ziel des Lernvorganges ist also grob 
gesprochen, dass wir eine im Vorhinein 
bestimmte Anzahl zufällig initialisierter 
Codebookvektoren durch Trainingsbeispie- 
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le dazu bringen, die Trainingsdaten mög¬ 
lichst gut wiederzuspiegeln. 

9.4.1 Vorgehensweise beim Lernen 

Das Lernen funktioniert nach einem ein¬ 
fachen Schema. Man besitzt (da das Ler¬ 
nen überwacht ist) eine Menge P von |P| 
vielen Trainingsbeispielen. Wie wir außer¬ 
dem schon wissen, sind auch die Klas¬ 
sen vordeüniert, man besitzt also weiter¬ 
hin eine Klassenmenge (7. Jeder Klasse 
ist ein Codebookvektor eindeutig zuge¬ 
ordnet, wir können also sagen, dass die 
Klassenmenge \C\ viele Codebookvektoren 
C'i, C 2 , ..., C\c\ enthält. 

Dies führt uns zum Aufbau der Trainings¬ 
beispiele: Sie sind von der Form (p, c), 
enthalten also zum einen den Trainings- 
Eingabe vektor p und zum anderen dessen 
Klassenzugehörigkeit c. Für die Klassenzu¬ 
gehörigkeit gilt hierbei 

c £ { 1,2,..., |C'I}, 

sie ordnet also das Trainingsbeispiel ein¬ 
deutig einer Klasse bzw. einem Codebook¬ 
vektor zu. 

Intuitiv könnte man zum Lernen nun sa¬ 
gen: „Wozu ein Lernverfahren? Wir rech¬ 
nen den Durchschnitt aller Klassenmitglie- 
der aus, platzieren dort deren Codebook¬ 
vektor und gut.“ Dass unser Lernverfahren 
aber wesentlich mehr macht, werden wir 
gleich sehen. 

Wir wollen nun kurz die Schritte des 
grundsätzlichen LVQ-Lernverfahrens be¬ 
trachten: 


Initialisierung: Wir platzieren unseren 
Satz Codebookvektoren auf zufällige 
Orte im Eingaberaum. 

Trainingsbeispiel: Ein Trainingsbeispiel p 
aus unserer Trainingsmenge P wird 
gewählt und präsentiert. 

Abstandsmessung: Wir messen den Ab¬ 
stand ||p — Cj| aller Codebookvekto¬ 
ren C\c\ zu unserer Einga¬ 

be p. 

Gewinner: Der naheliegendste Codebook¬ 
vektor gewinnt, also derjenige mit 

min ||p —(7i||. 

Oj GO 

Lernvorgang: Der Lernvorgang ündet 
durch die Regel 

AC i = r l (t)-h(p,C i )-(p-C i ) 

(9.1) 

(7j(i + 1) = <7i(i) + ACi (9-2) 

statt, die wir nun aufschlüsseln wol¬ 
len. 

> Der erste Faktor 77 (t) ist, wie wir 
schon oft gesehen haben, eine zeitab¬ 
hängige Lernrate, die es uns ermög¬ 
licht, zwischen großen Lernschritten 
und Fine-Tuning zu differenzieren. 

> Der letzte Faktor (p — Ci) ist offen¬ 
sichtlich die Richtung , in die wir den 
Codebookvektor verschieben. 

> Kernstück aber ist die Funktion 
h(p. Ci): Sie trifft eine Fallunterschei¬ 
dung. 
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9.5 Verbindung zu Neuronalen Netzen 


Wichtig! 


Vektoren 

Neurone? 


Zuweisung richtig: Der Gewinner¬ 
vektor ist der Codebookvektor 
der Klasse, der p zugehörig 
ist. In diesem Fall liefert die 
Funktion positive Werte, der 
Codebookvektor bewegt sich 
auf das p zu. 

Zuweisung falsch: Der Gewinnervek¬ 
tor repräsentiert nicht die Klas¬ 
se, der p zugehörig ist. Er bewegt 
sich daher von p weg. 

Wir sehen, dass wir die Funktion h nicht 
genau definiert haben. Aus gutem Grund: 
Ab hier teilt sich LVQ in verschiedene 
Nuancen auf, abhängig davon wie exakt 
h und die Lernrate bestimmt sein sollen 
(genannt LVQ1, LVQ2, LVQ3 , OLVQ, 
etc). Die Unterschiede liegen beispiels¬ 
weise in der Stärke der Codebookvektor- 
Bewegungen. Sie haben aber alle das glei¬ 
che hier dargestellte Grundprinzip gemein¬ 
sam, und wie angekündigt möchte ich sie 
nicht weiter betrachten - insofern schrei¬ 
be ich auch keine formalen Definitionen zu 
obiger Lernregel und LVQ an sich auf. 

9.5 Verbindung zu 

Neuronalen Netzen 

Bis jetzt kann man sich trotz des Lernvor¬ 
ganges fragen, was denn LVQ mit Neuro¬ 
nalen Netzen zu tun hat. Man kann die 
Codebookvektoren als Neuronen mit fes¬ 
tem Ort im Inputraum ansehen, ähnlich 
wie bei RBF-Netzen. Zudem ist es in der 
Natur oft so, dass ein Neuron pro Grup¬ 
pe feuern darf (ein Gewinnerneuron, hier 


ein Codebookvektor), während alle ande¬ 
ren von ihm inhibiert werden. 

Ich setze das kurze Kapitel über Learning 
Vector Quantization an diese Stelle im 
Script, weil wir im folgenden Kapitel über 
Seif Organizing Maps den Ansatz weiter¬ 
verfolgen wollen: Wir werden weitere Ein¬ 
gaben mithilfe von im Eingangsraum ver¬ 
teilten Neuronen klassifizieren, nur, dass 
wir diesmal nicht wissen, welche Eingabe 
zu welcher Klasse gehört. 

Kommen wir nun zu den unüberwacht ler¬ 
nenden Netzerd. 

Übungsaufgaben 

Aufgabe 17. Geben Sie eine Quantisie¬ 
rung an, die im 5-dimensionalen Einheits¬ 
würfel 7~L alle Vektoren H E 1~L gleichmäßig 
in eine von 1024 Klassen einteilt. 
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Seif Organizing Feature Maps 



Ein Paradigma unüberwacht lernender Neuronaler Netze, welches einen 
Eingaberaum durch seine feste Topologie kartographiert und so selbstständig 
nach Ähnlichkeiten sucht. Funktion, Lernverfahren, Variationen und 

Neuronales Gas. 


Wie speichert 
Gehirn Daten? 


Betrachtet man die Konzepte biologischer 
Neuronaler Netze in der Einleitung, so 
kann man sich die Frage stellen, wie denn 
unser Gehirn die Eindrücke, die es täg¬ 
lich erhält, speichert und abruft - hier 
sei hervorgehoben, dass das Gehirn keine 
Trainingsbeispiele, also keine „gewünsch¬ 
te Ausgabe“ hat, und wo wir schon dar¬ 
über nachdenken, merken wir, dass auch 
keine Ausgabe in diesem Sinne vorhanden 
ist: Unser Gehirn ist nicht wie eine Abbil¬ 
dung oder ein Perceptron, das Eingabewer¬ 
te auf Ausgabewerte abbildet. Unser Ge¬ 
hirn reagiert auf Eingaben von außen mit 
Zustandsänderungen - diese sind sozusa¬ 
gen seine Ausgabe. 


Basierend auf diesem Grundsatz und der 
Frage nachgehend, wie biologische Neuro¬ 
nale Netze sich selbst organisieren können, 
schuf Teuvo Kohonen in den 1980er Jah¬ 
ren seine Seif Organizing Feature Maps 
|Koh82, 


Koh98 , kurz Seif Organizing 


Maps oder SO Ms genannt - ein Paradig¬ 


ma Neuronaler Netze, in dem der Zustand 
des Netzes die Ausgabe ist, und das voll¬ 
kommen unüberwacht, also ohne Teacher 
lernt. 

Im Unterschied zu anderen Netzparadig¬ 
men, welche wir bereits kennengelernt ha¬ 
ben, stellt man bei SOMs keine Fragen da¬ 
nach, was die Neurone berechnen - man 
fragt nur, welches Neuron gerade aktiv ist. 
Dies ist biologisch sehr gut motiviert: Sind 
in der Biologie Neurone mit bestimmten 
Muskeln verbunden, interessiert es in al¬ 
ler Regel weniger, wie stark ein bestimm¬ 
ter Muskel kontrahiert wird, sondern wel¬ 
cher Muskel angesteuert wird. Anders aus¬ 
gedrückt: Es interessiert nicht, was genau 
Neurone ausgeben, sondern welches Neu¬ 
ron etwas ausgibt. SOMs sind also we¬ 
sentlich biologieverwandter als z.B. die 
FeedForward-Netze, die wir vermehrt für 
Rechenaufgaben nutzen. 


Keine Ausgabe, 
aber aktives 
Neuron 
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Hochdim. 

Eingabe 

i 

Niedrigdim. 

Karte 


Eingaberaum 
und Topologie 


10.1 Aufbau einer Seif 
Organizing Map 


o—o—o—o—o 


SOMs haben - wie das Gehirn - typi¬ 
scherweise die Aufgabe, einen hochdimen¬ 
sionalen Input (N Dimensionen) auf Berei¬ 
che in einem niedrigdimensionalen Gitter 
(G Dimensionen) abzubilden, also sozusa¬ 
gen eine Karte von dem hochdimensiona- 
len Raum zu zeichnen. Um diese Karte zu 
erschaffen, erhält die SOM einfach belie¬ 
big viele Punkte aus dem Inputraum. Die 
SOM wird während der Eingabe der Punk¬ 
te versuchen, die Orte, auf denen die Punk¬ 
te auftreten, so gut wie möglich mit ih¬ 
ren Neuronen abzudecken. Dies bedeutet 
insbesondere, dass jedes Neuron einem be¬ 
stimmten Ort im Inputraum zuzuordnen 
ist. 

Diese Fakten sind zunächst etwas verwir¬ 
rend, man muss sie kurz durchdenken. Es 
gibt also zwei Räume, in denen SOMs ar¬ 
beiten: 

> Den IV-dimensionalen Eingaberaum 
und 

> das G-dimensionale Gitter, auf dem 
die Neurone liegen bzw. das die Nach¬ 
barschaftsbeziehungen der Neurone 
und damit die Netztopologie angibt. 

Bei einem eindimensionalen Gitter könn¬ 
ten die Neurone beispielweise wie an einer 
Perlenkette aufgereiht sein, jedes Neuron 
würde genau zwei Nachbarn besitzen (bis 
auf die beiden End-Neurone). Ein zwei¬ 
dimensionales Gitter könnte eine recht¬ 
winklige Anordnung von Neuronen sein 


O—Q—O—Q—O 


Ö—Ö—Ö—Ö—Ö 


Ö—0—Ö—6—Ö 


Ö—Ö—Ö—Ö—Ö 


Abbildung 10.1: Beispieltopologien einer Seif 
Organizing Map - Oben eine eindimensionale To¬ 
pologie, unten eine zweidimensionale. 


(Abb. 10.1). Eine weitere denkbare An¬ 


ordnung im zweidimensionalen wäre in ei¬ 
ner Art Wabenform. Auch ungleichmäßi¬ 
ge Topologien sind möglich, wenn auch 
nicht sehr häufig. Topologien mit mehr 
Dimensionen und wesentlich mehr Nach¬ 
barschaftsbeziehungen wären auch denk¬ 
bar, werden aber aufgrund der mangeln¬ 
den Visualisierungsfähigkeit nicht oft ein¬ 
gesetzt. 


Auch dann, wenn N = G gilt, sind die bei¬ 
den Räume nicht gleich und müssen un¬ 
terschieden werden - sie haben in diesem 
Spezialfall nur die gleiche Dimension. 


Wir werden die Funktionsweise einer Seif 
Organizing Map nun zunächst kurz formal 


Wichtig! 
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10.2 Funktionsweise und Ausgabeinterpretation 


betrachten und dann an einigen Beispielen 
klarmachen. 

Definition 10.1 (SOM-Neuron). Ähn¬ 
lich den Neuronen in einem RBF-Netz be¬ 
sitzt ein SOM-Neuron k eine feste Posi¬ 
tion Cfc (ein Zentrum ) im Eingaberaum. 

Definition 10.2 (Seif Organizing Map). 
Eine Seif Organizing Map ist eine Menge 
K von SOM-Neuronen. Bei Eingabe eines 
Eingabevektors wird genau dasjenige Neu¬ 
ron k E K aktiv, welches dem Eingabe¬ 
muster im Eingaberaum am nächsten liegt. 
Die Dimension des Eingaberaumes nennen 
wir N. 

Definition 10.3 (Topologie). Die Neu¬ 
rone sind untereinander durch Nach¬ 
barschaftsbeziehungen verbunden. Diese 
Nachbarschaftsbeziehungen nennen wir 
Topologie. Die Topologie nimmt starken 
Einfluss auf das Training einer SOM. Sie 
wird durch die Topologiefunktion h(i, k, t ) 
definiert, wobei i das Gewinnerneuron 1 ist, 
k das gerade zu adaptierende Neuron (hier¬ 
zu kommen wir später noch) und t der Zeit¬ 
schrift. Wir bezeichnen die Dimension der 
Topologie mit G. 

10.2 SOMs aktivieren immer 
das Neuron, was der 
Eingabe am nächsten 
liegt 

Wie viele andere Neuronale Netze, muss 
die SOM erst trainiert werden, bevor man 

1 Wir werden noch erfahren, was ein Gewinnerneu¬ 
ron ist. 


sie benutzt. Betrachten wir aber vor dem 
Training noch die sehr einfache Funktions¬ 
weise einer fertigen Seif Organizing Map, 
da sie einige Analogien zum Training be¬ 
sitzt. Die Funktionsweise setzt sich aus fol¬ 
genden Schritten zusammen: 

Eingabe eines beliebigen Wertes p aus 
dem Eingangsraum M. N . 

Abstandsberechnung von jedem Neuron 
k zu p durch eine Norm - also Berech¬ 
nung von | \p — Cfc 11. 

Ein Neuron wird aktiv, nämlich genau 
das Neuron i mit dem kürzesten oben 
berechneten Abstand zur Eingabe - 
alle anderen Neurone sind nicht aktiv. 
Dieses Paradigma der Aktivität heißt 
auch Winner- Takes-All-Schema. Die 
Ausgabe, welche wir zu einer Eingabe 
von einer SOM erwarten, ist, welches 
Neuron aktiv wird. 

Viele Literaturstellen beschreiben die 
SOM wesentlich formaler: Es wird oft ei¬ 
ne Eingabeschicht beschrieben, die in Rich¬ 
tung einer SOM-Schicht voll verknüpft ist. 
Die Eingabeschicht (N Neurone) leitet 
dann alle Eingaben an die SOM-Schicht 
weiter. Die SOM-Schicht ist in sich lateral 
vollverknüpft, so dass sich ein Gewinner¬ 
neuron herausbilden und die anderen Neu¬ 
rone inhibieren kann. Ich finde diese Art, 
eine SOM zu beschreiben, nicht sehr an¬ 
schaulich und habe versucht, den Netzauf¬ 
bau hier anschaulicher zu beschreiben. 

Nun ist die Frage, welches Neuron bei wel¬ 
cher Eingabe aktiv wird - und genau dies 
ist die Frage, die uns das Netz während 
des Trainings von alleine beantwortet. 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


155 





Kapitel 10 Seif Organizing Feature Maps 


dkriesel.com 


10.3 Training bringt die 
SOM-Topologie dazu, 
den Eingaberaum 
abzudecken 


Adaption der Zentren: Die Zentren der 
Neurone werden innerhalb des Ein¬ 
gangsraumes nach der Vorschrift 2 

A c k = rj(t) ■ h(i,k,t) ■ (jp - c k ), 


Training: 
Eingabe, 
—> Gewinner i, 
Ortsänderung 
i und Nachbarn 


Das Training einer SOM ist ähnlich über¬ 
schaubar wie die eben beschriebene Funk¬ 
tionsweise. Es gliedert sich im Wesent¬ 
lichen in fünf Schritte, die teilweise de¬ 
ckungsgleich mit denen der Funktionswei¬ 
se sind. 

Initialisierung: Start des Netzes mit zufäl¬ 
ligen Neuronenzentren c k E aus 
dem Eingangsraum. 

Anlegen eines Eingangsmusters: Es 

wird ein Stimulus, also ein Punkt p 
aus dem Eingangsraum gewählt. 
Dieser Stimulus wird nun in das Netz 
eingegeben. 

Abstandsmessung: Für jedes Neuron k 
im Netz wird nun der Abstand 11 p — 
Cfc|| bestimmt. 


versetzt, wobei die Werte Ac k ein¬ 
fach auf die bisherigen Zentren ad¬ 
diert werden. Aus dem letzten Faktor 
wird bereits offensichtlich, dass die 
Ortsänderung der Neurone k propor¬ 
tional zu der Entfernung zum eingege¬ 
benen Muster p und wie gewohnt zu 
einer zeitabhängigen Lernrate r)(t) ist. 
Die oben besprochene Topologie des 
Netzes nimmt ihren Einfluss durch die 
Funktion h{i,k,t), die wir im Folgen¬ 
den erforschen werden. 

Definition 10.4 (SOM-Lernregel). Eine 
SOM wird trainiert, indem ihr ein Einga¬ 
bemuster präsentiert und das Gewinner¬ 
neuron dazu ermittelt wird. Das Gewinner¬ 
neuron und seine durch die Topologiefunk¬ 
tion definierten Nachbarneuronen adaptie¬ 
ren dann ihre Zentren nach der Vorschrift 


Winner takes all: Es wird das Gewin¬ 
nerneuron i ermittelt, welches den 
kleinsten Abstand zu p besitzt, das al¬ 
so der Bedingung 


Ac fc = rj(t) ■ h(i, k, t) • (p - c k ), 

( 10 . 1 ) 

Ck(t + 1) = c k (t) + Acfc(i). (10.2) 


|| P - Ci\\ <|| p- Cfcll V k / i 

genügt. Wie aus der Bedingung er¬ 
sichtlich, kann man bei mehreren Ge¬ 
winnerneuronen eines nach Belieben 
wählen. 


2 Achtung: Viele Quellen schreiben diese Vorschrift 
gh{p — Ck), was dem Leser fälschlicherweise sugge¬ 
riert, dass es sich bei h um eine Konstante handelt. 
Dieses Problem ist einfach lösbar, indem man die 
Multiplikationspunkte ■ nicht weglässt. 
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10.3 Training 


Auf Gitter 
definiert 


ur 1 Maximum 
bei Gewinner 


10.3.1 Die Topologiefunktion 
bestimmt, wie stark ein 
lernendes Neuron seine 
Nachbarn beeinflusst 

Die Topologiefunktion h ist nicht auf 
dem Eingangsraum, sondern auf dem Git¬ 
ter definiert und stellt die Nachbarschafts¬ 
beziehungen zwischen den Neuronen dar 
- also die Topologie des Netzes. Sie kann 
zeitabhängig sein (und ist es auch oft) - 
dies erklärt den Parameter t. Der Parame¬ 
ter k ist der durch alle Neurone laufende 
Index, und der Parameter i ist der Index 
des Gewinnerneurons. 


Hierfür könnte bei einem zweidimensiona¬ 
len Gitter z.B. der euklidische Abstand 
(unterer Teil der Abb. 10.2 auf Sei' 
159) verwendet werden oder bei einem 
eindimensionalen Gitter einfach die An¬ 
zahl der Verbindungen zwischen den Neu¬ 
ronen i und k (oberer Teil derselben Ab¬ 
bildung) . 


Definition 10.5 (Topologiefunktion). 
Die Topologiefunkton h(i,k,t ) beschreibt 
die Nachbarschaftsbeziehungen in der To¬ 
pologie. Sie kann eine beliebige unimoda- 
le Funktion sein, die maximal wird, wenn 
i = k gilt. Eine Zeitabhängigkeit ist optio¬ 
nal, wird aber oft verwendet. 


Prinzipiell ist der Sinn der Funktion, einen 
großen Wert anzunehmen, falls k Nach¬ 
bar des Gewinners oder gar der Gewin¬ 
ner selbst ist, und kleine Werte, falls nicht. 
Schärfer definiert: Die Topologiefunktion 
muss unimodal sein, also genau ein Ma¬ 
ximum besitzen - dieses Maximum muss 
beim Gewinnerneuron i liegen, das zu sich 
selbst natürlich die Entfernung 0 hat. 

Zusätzlich macht es uns die Zeitabhän¬ 
gigkeit beispielsweise möglich, die Nach¬ 
barschaft mit der Zeit schrumpfen zu las¬ 
sen. 

Um große Werte für Nachbarn von i und 
kleine Werte für Nicht-Nachbarn ausge¬ 
ben zu können, braucht die Funktion h 
eine Art Abstandsbegriff auf dem Gitter, 
irgendwoher muss sie also wissen, wie weit 
i und k auf dem Gitter voneinander ent¬ 
fernt sind. Es gibt verschiedene Methoden 
zur Berechnung des Abstandes. 


10.3.1.1 Vorstellung gängiger Abstands¬ 
und Topologiefunktionen 


Eine gängige Abstandsfunktion wäre bei¬ 
spielsweise die uns schon bekannte Gauß¬ 


glocke (siehe auch Abb. 10.3 auf der fol¬ 


genden Seite). Sie ist unimodal mit einem 


Maximum bei 0, zusätzlich kann sie durch 
ihren Parameter er in ihrer Breite verän¬ 
dert werden, was wir für die Realisierung 
der mit der Zeit schrumpfenden Nachbar¬ 
schaft nutzen können: Wir beziehen die 
Zeitabhängigkeit einfach auf das er, erhal¬ 
ten also ein monoton sinkendes cr(t). Un¬ 
sere Topologiefunktion könnte dann wie 
folgt aussehen: 


/i(i, k, t) = e 


( llgj-gfcllW 

V 2 -<T(t)2 ) 


(10.3) 


wobei hier (ji und gj~ die Positionen der 
Neurone auf dem Gitter sind, nicht im Ein¬ 
gaberaum, welche wir mit Ci und Cfc be¬ 
zeichnen würden. 
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Gauss-Glocke in 1D 



Zylinderfunktion 


1 -..1—|-i- \ .. 

0.8 -|||ij 
0.6 -|jjI!- 

o.4 - ;.|.i.|.j~ 

0.2 -||!j 

o —!-L-i i M-i- 

i_i_i_i_L 

-4 -2 0 2 4 


Kegelfunktion 



x 


Mexican Hat Function 



x 


Abbildung 10.3: Gaußglocke, Kegelfunktion, Zylinderfunktion und die von Kohonen vorgeschlage¬ 
ne Mexican-Hat-Funktion als Beispiele für Topologiefunktionen einer SOM. 
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10.3 Training 


O . 
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.o 
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Abbildung 10.2: Beispiel-Abstände einer eindi¬ 
mensionalen SOM-Topologie (oben) und einer 
zweidimensionalen SOM-Topologie (unten) zwi¬ 
schen zwei Neuronen i und k. Im unteren Fall 
bilden wir den Euklidischen Abstand (im zwei¬ 
dimensionalen äquivalent zum Satz des Pytha¬ 
goras). Im oberen Fall wird einfach die diskrete 
Weglänge zwischen i und k abgezählt. In beiden 
Fällen habe ich der Einfachheit halber eine feste 
Gitterkantenlänge von 1 gefordert. 


Weitere Funktionen, die anstatt der Gauß¬ 
funktion eingesetzt werden können, sind 
zum Beispiel die Kegelfunktion , die Zy¬ 
linderfunktion oder die Mexican-Hat- 
Funktion (Abb. 10.3 auf der linken Sei¬ 


te). Die Mexican-Hat-Funktion bietet hier¬ 


bei eine besondere biologische Motivation: 
Sie stößt durch ihre negativen Stellen man¬ 
che Neurone in der Umgebung des Gewin¬ 
nerneurons ab, was man auch in der Na¬ 
tur schon beobachtet hat. Dies kann für 
schärfere Abgrenzung der Kartenbereiche 
sorgen - genau aus diesem Grund wurde 
sie auch von Teuvo Kohonen selbst vor¬ 
geschlagen. Diese Regulierungseigenschaft 
ist aber für die Funktion der Karte an sich 
nicht notwendig, es kann sogar passieren, 
dass dadurch die Karte divergiert, also ge¬ 
wissermaßen explodiert. 


10.3.2 Lernraten und 

Nachbarschaften können 
über die Zeit monoton 
sinken 

Damit in den späteren Phasen des Trai¬ 
nings nicht mehr die ganze Karte sehr 
stark in Richtung eines neuen Musters 
gezogen wird, wird bei den SOMs oft 
mit zeitlich monoton sinkenden Lernra¬ 
ten und Nachbarschaftsgrößen gearbeitet. 
Sprechen wir zunächst über die Lernrate: 
Typische Größenordnungen für den Ziel¬ 
wert der Lernrate sind zwei Größenordnun¬ 
gen kleiner als der Startwert, beispielswei¬ 
se könnte gelten 

0.01 < rj < 0.6. 
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Diese Größe ist aber auch wieder abhängig 
zu machen von der Netztopologie bzw. der 
Größe der Nachbarschaft. 

Eine sinkende Nachbarschaftsgröße kann, 
wie wir gesehen haben, beispielsweise mit 
einem zeitabhängig monoton sinkenden o 
bei Benutzung der Gaußglocke in der To¬ 
pologiefunktion realisiert werden. 

Der Vorteil bei einer sinkenden Nachbar- 
schaftsgröße ist, dass ein sich bewegendes 
Neuron zu Anfang viele Neurone in sei¬ 
ner Umgebung „mitzieht“, sich das zufällig 
initialisierte Netz also am Anfang schnell 
und sauber entfalten kann. Zum Ende des 
Lernvorganges hin werden nur noch weni¬ 
ge Neurone auf einmal beeinflusst, was das 
Netz im Gesamten steifer macht, aber ein 
gutes „fine tuning“ der einzelnen Neurone 
ermöglicht. 

Zu beachten ist weiterhin, dass stets 


h ■ r/ < 1 


In diesem Beispiel verwenden wir einen 
zweidimensionalen Eingangsraum, es gilt 
also N = 2. Die Gitterstruktur sei eindi¬ 
mensional (G = 1). Weiterhin soll unsere 
Beispiel-SOM aus insgesamt 7 Neuronen 
bestehen und die Lernrate sei rj = 0.5. 

Auch unsere Nachbarschaftsfunktion hal¬ 
ten wir recht einfach, um das Netz im Kopf 
nachvollziehen zu können: 


h(i, k, t ) 


1 k direkter Nachbar von i. 
1 k = i, 

0 sonst. 


( 10 . 4 ) 


Wir betrachten jetzt das soeben beschrie¬ 
bene Netz mit zufälliger Initialisierung der 
Zentren (Abb. |10.4 auf der rechten Sei 


te) und geben ein Trainingsmuster p ein. 


Offensichtlich liegt das Eingangsmuster in 
unserem Beispiel dem Neuron 3 am nächs¬ 
ten - dieses ist also der Gewinner. 


gelten muss, sonst würden Neurone andau¬ 
ernd am aktuellen Trainingsbeispiel vor¬ 
beischießen. 

Doch nun genug der Theorie - betrachten 
wir eine SOM im Einsatz! 


Wir erinnern uns an die Lernvorschrift für 
SOMs 

A c k = rj(t) ■ h(i, k, t) ■ (p - c k ) 

und arbeiten die drei Faktoren von hinten 
nach vorne ab: 


10.4 Beispiele für die 

Funktionsweise von 
SOMs 

Beginnen wir mit einem einfachen, im 
Kopf nachvollziehbaren Beispiel. 


Lernrichtung: Wir erinnern uns, dass die 
Neuronenzentren c k Vektoren im Ein¬ 
gangsraum sind, genau wie das Mus¬ 
ter p. Der Faktor (p — c k ) gibt uns 
also den Vektor vom Neuron k zum 
Muster p an. Dieser wird nun mit ver¬ 
schiedenen Skalaren multipliziert: 
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10.4 Beispiele 



Abbildung 10.4 : Darstellung des zweidimensionalen Eingaberaumes (links) und des eindimensiona¬ 
len Topologieraumes (rechts) einer Seif Organizing Map. Neuron 3 ist das Gewinnerneuron, da es p 
am nächsten liegt. Die Nachbarn von 3 in der Topologie sind die Neurone 2 und 4. Die Pfeile mar¬ 
kieren die Bewegung des Gewinnerneurons und seiner Nachbarn in Richtung des Trainingsbeispiels 
P- 

Die eindimensionale Topologie des Netzes ist hier zur Veranschaulichung durch die gepunkteten 
Linien in den Eingangsraum aufgetragen. Die Pfeile markieren die Bewegung des Gewinners und 
seiner Nachbarn auf das Muster zu. 
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Topologie 
bestimmt, 
wer lernt 


Unsere Topologiefunktion h besagt, dass 
nur das Gewinnerneuron und seine 
beiden nächsten Nachbarn (hier: 2 
und 4) lernen dürfen, indem sie bei 
allen anderen Neuronen 0 ausgibt. Ei¬ 
ne Zeitabhängigkeit ist nicht gegeben. 
Unser Vektor (p — Ck ) wird also entwe¬ 
der mit 1 oder mit 0 multipliziert. 

Die Lernrate gibt, wie immer, die Stärke 
des Lernens an. Es gilt wie schon ge¬ 
sagt 77 = 0.5 - wir kommen also insge¬ 
samt auf das Ergebnis, dass sich das 
Gewinnerneuron und seine Nachbarn 
(hier: Die Neurone 2, 3 und 4) dem 
Muster p um die Hälfte des Weges nä¬ 
hern (dies markieren die Pfeile in der 
Abbildung). 


Obwohl das Zentrum von Neuron 7 vom 
Eingangsraum aus gesehen wesentlich nä¬ 
her am Eingangsmuster p liegt als das Neu¬ 
ron 2, lernt das Neuron 2, und das Neu¬ 
ron 7 nicht. Ich möchte daran noch einmal 
deutlich machen, dass die Netztopologie 
bestimmt, welches Neuron mitlernen darf, 
und nicht die Lage im Eingangsraum. Dies 
ist genau der Mechanismus, durch den ei¬ 
ne Topologie einen Eingangsraum aussage¬ 
kräftig abdecken kann, ohne mit ihm auf 
irgendeine Weise verwandt sein zu müs¬ 
sen. 


Nach der Adaption der Neurone 2, 3 und 
4 wird das nächste Muster angelegt, und 
so weiter, und so fort. Ein weiteres Bei¬ 
spiel, wie sich eine solche eindimensiona¬ 
le SOM im zweidimensionalen Inputraum 
bei gleichverteilten Inputmustern über die 
Zeit entwickeln kann, sehen wir an der Ab¬ 


bildung 10.5 auf der rechten Seite 


Endzustände von ein- und zweidimensiona¬ 
len SOMs bei verschieden geformten Input¬ 


räumen sehen wir in der Abbildung 10.6 


auf Seite 164 Wie wir sehen, sind nicht 


alle Inputräume durch jede Netztopologie 
schön abdeckbar, es gibt sogenannte frei¬ 
liegende Neurone - Neurone, welche in ei¬ 
nem Bereich liegen, in dem kein Inputmus- 
ter je aufgetreten ist. Eine eindimensionale 
Topologie produziert in der Regel weniger 
freiliegende Neurone als eine zweidimensio¬ 
nale: Beispielsweise beim Training auf ring¬ 
förmig angeordnete Eingabemuster ist es 
bei einer zweidimensionalen quadratischen 
Topologie so gut wie unmöglich, die frei¬ 
liegenden Neurone in der Mitte des Rings 
zu verhindern - diese werden ja während 
des Trainings in jede Richtung gezogen, so 
dass sie schlussendlich einfach in der Mit¬ 
te bleiben. Das macht die eindimensionale 
Topologie aber keineswegs zur Optimalto¬ 
pologie, da sie nur weniger komplexe Nach¬ 
barschaftsbeziehungen finden kann als ei¬ 
ne mehrdimensionale. 


10.4.1 Topologische Defekte sind 
Fehlentfaltungen der SOM 


Es kann während des Entfaltens einer 
SOM Vorkommen, dass diese einen Topo¬ 
logischen Defekt (Abb 


10.7 auf Seite 


165) bildet, sich also nicht richtig entfaltet. 


Ein Topologischer Defekt kann am besten 
mit dem Wort „Verknotung“ beschrieben 
werden. 


Ein Mittel gegen Topologische Defekte 
kann sein, die Startwerte für die Nachbar¬ 
schaftsgröße zu erhöhen, denn je komple- 


„Knoten“ 
in Karte 
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10.4 Beispiele 



Abbildung 10.5 : Verhalten einer SOM mit eindimensionaler Topologie (G = 1) nach Eingabe von 
0, 100, 300, 500, 5000, 50000, 70000 und 80000 zufällig verteilten Eingabemustern p £ M 2 . r/ fiel 
während des Trainings von 1.0 auf 0.1, der cr-Parameter der als Nachbarschaftsmaß eingesetzten 
Gauß-Funktion von 10.0 auf 0.2. 
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Abbildung 10.6 : Endzustände von eindimensionalen (linke Spalte) und zweidimensionalen (rech¬ 
te Spalte) SOMs auf verschieden abgedeckten Inputräumens. Genutzt wurden bei eindimensiona¬ 
ler Topologie 200 Neurone, bei zweidimensionaler 10 x 10 Neurone und bei allen Karten 80.000 
Eingabemuster. 
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10.5 Auflösungsdosierung und ortsabhängige Lernrate 



Abbildung 10.7: E in Topologischer Defekt in ei¬ 
ner zweidimensionalen SOM. 


raum eingegeben werden, so dass sich 
die SOM an diesen Mustern ausrichten 
und diese kartographieren wird. Es kann 
nun Vorkommen, dass wir eine bestimmte 
Untermenge U des Eingaberaums genau¬ 
er kartographiert haben möchten als den 
Rest. 


Die Lösung dieses Problems kann mit 
SOMs denkbar einfach realisiert werden: 
Wir präsentieren der SOM während des 
Trainings ganz einfach überproportional 
viele Eingabemuster aus diesem Bereich 
U. Werden der SOM mehr Trainingsmus¬ 
ter aus U C M. n präsentiert als aus dem 
Rest \ U, so werden sich dort auch 
mehr Neurone zusammenfinden, während 
sich die restlichen Neurone auf ~R N \U dün¬ 


ner verteilen (Abb. 10.8 auf der folgenden 


Seite). 


xer die Topologie ist (bzw. je mehr Nach¬ 
barn jedes Neuron besitzt, man könnte ja 
auch dreidimensionale oder wabenförmige 
zweidimensionale Topologien erzeugen) de¬ 
sto schwerer ist es für eine zufällig initiali¬ 
sierte Karte, sich zu entfalten. 

10.5 Man kann die Auflösung 
einer SOM ortsabhängig 
dosieren 

Wir haben gesehen, dass eine SOM trai¬ 
niert wird, indem hintereinander immer 
wieder Eingabemuster aus dem Eingangs¬ 


Wie in der Abbildung ersichtlich, kann so 
der Rand der SOM etwas deformiert wer¬ 
den - dies ist ausgleichbar, indem man 
dem Rand des Inputraumes ebenfalls eine 
etwas höhere Wahrscheinlichkeit zuweist, 
von Trainingsmustern getroffen zu werden 
(eine Taktik, die man sowieso oft anwen¬ 
det, um mit den SOMs besser „in die 
Ecken zu kommen“). 

Auch wird oft bei den Rand- bzw. Eckneu¬ 
ronen eine höhere Lernrate angewandt, da 
sie durch die Topologie nur nach innen ge¬ 
zogen werden - auch dies sorgt für eine si¬ 
gnifikant bessere Eckabdeckung. 


Mehr Muster 

i 

höhere 

Auflösung 
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Abbildung 10.8: Training einer SOM mit G = 2 auf einen zweidimensionalen Inputraum. Links 
war die Wahrscheinlichkeit für jede Koordinate des Inputraumes, zum Trainingsmuster zu werden, 
gleich. Rechts war sie für den zentralen Kreis im Inputraum mehr als zehnmal so groß wie für 
den Rest des Inputraumes (sichtbar an der größeren Musterdichte im Hintergrund). Offensichtlich 
drängen sich die Neurone in diesem Kreis viel stärker und der restliche Bereich ist etwas undichter 
abgedeckt, aber immer noch jeweils einigermaßen gleichmäßig. Beide SOMs wurden mit 80.000 
Trainingsbeispielen und abfallendem 77 (1 —► 0.2) sowie abfallendem er (5 —> 0.5) trainiert. 
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10.6 Anwendung 


10.6 Anwendung von SOMs 

Seif Organizing Maps und ihre Variationen 
haben eine Vielzahl von Anwendungsgebie¬ 
ten in Bezug auf die biologisch inspirierte 
assoziative Speicherung von Daten. 

Beispielsweise ist es gelungen, auf einer 
SOM mit einer zweidimensionalen diskre¬ 
ten Gittertopologie die verschiedenen Pho¬ 
neme der Finnischen Sprache abzubilden 
und so Nachbarschaften zu finden (eine 
SOM macht ja nichts anderes, als Nachbar¬ 
schaftsbeziehungen zu finden). Man ver¬ 
sucht also wieder, einen hochdimensio- 
nalen Raum auf einen niederdimensiona- 
len Raum (die Topologie) herabzubrechen, 
schaut, ob sich irgendwelche Strukturen 
herausbilden - und siehe da: Es bilden sich 
klar definierte Bereiche für die einzelnen 
Phoneme heraus. 

Teuvo Kohonen selbst hat sich die Mü¬ 
he gemacht, eine Vielzahl von Papern, wel¬ 
che seine SOMs erwähnen, nach Schlüssel¬ 
wörtern zu durchsuchen. In diesem großen 
Eingangsraum besetzen jetzt die einzelnen 
Paper einzelne Positionen, je nach Schlüs¬ 
sel wort Vorkommen. Kohonen hat dann ei¬ 
ne SOM mit G = 2 kreiert und damit 
den von ihm erstellten hochdimensionalen 
„Paper-Raunr“ durch sie kartographieren 
lassen. 

Man kann also ein Paper, an dem man Ge¬ 
fallen findet, in die fertig trainierte SOM 
eingeben und schauen, welches Neuron 
in der SOM davon aktiviert wird. Wahr¬ 
scheinlich wird man feststellen, dass man 
an den in der Topologie benachbarten Pa¬ 
pern auch Gefallen findet. Diese Art von 


Gehirn-ähnlicher kontextbasierter Su¬ 
che funktioniert noch bei vielen anderen 
Inputräumen. 

Festzuhalten ist, dass das System selbst 
festlegt, was innerhalb der Topologie be¬ 
nachbart, also ähnlich ist - genau das 
macht es so interessant. 

An diesem Beispiel ist direkt ersichtlich, 
dass die Lage c der Neurone im Inputraum 
nicht aussagekräftig ist. Interessant ist es 
vielmehr, nun zu schauen, welches Neuron 
bei Eingabe eines bis jetzt unbekannten 
Inputmusters aktiv wird. Man kann als 
nächstes schauen, bei welchen bisherigen 
Eingaben genau dieses Neuron ebenfalls 
aktiv war - und hat sofort eine Gruppe 
von einander sehr ähnlichen Eingaben ent¬ 
deckt. Je weiter nun Eingaben innerhalb 
der Topologie auseinander liegen, um so 
weniger Gemeinsamkeiten haben sie. Die 
Topologie bildet also quasi eine Karte der 
Merkmale der Eingaben - reduziert auf 
anschaulich wenige Dimensionen im Ver¬ 
gleich zur Inputdimension. 

Oftmals ist die Topologie einer SOM daher 
zweidimensional, da sie sich so sehr gut 
visualisieren lässt, während der Eingabe¬ 
raum sehr hochdimensional sein kann. 


10.6.1 Mit SOMSs kann man 

Zentren für RBF-Neurone 
finden 

SOMs richten sich genau auf die Orte der 
ausgehenden Eingaben aus - demzufolge 


SOM findet 
Ähnlichkeiten 
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werden sie z.B. gerne genutzt, um die Zen¬ 
tren eines RBF-Netzes zu wählen. Das Pa¬ 
radigma der RBF-Netze haben wir bereits 
in Kapitel [6] kennengelernt. 


teilweise nur in Unterräumen des Inpu¬ 
traums abspielen oder die Unterräume so¬ 
gar wechseln (Abb. 10.9 auf der rechten 


Seite). 


Wie wir bereits gesehen haben, kann man 
sogar steuern, welche Bereiche des Input¬ 
raums mit höherer Auflösung abgedeckt 
werden sollen - oder im Zusammenhang 
mit RBF-Netzen gesprochen, welche Berei¬ 
che unserer Funktion das RBF-Netz mit 
mehr Neuronen, also genauer bearbeiten 
soll. Als zusätzliches nützliches Merkmal 
der Kombination aus RBF-Netz und SOM 
kann man die durch die SOM erhaltene To¬ 
pologie nutzen, um beim schlussendlichen 
Training eines Neurons des RBF-Netzes 
„benachbarte“ RBF-Neurone auf verschie¬ 
dene Weisen mit zu beeinflussen. 

Viele Simulatoren Neuronaler Netze bieten 
hierfür eine zusätzliche sogenannte SOM- 
Schicht im Zusammenhang mit der Simu¬ 
lation von RBF-Netzen an. 

10.7 Variationen von SOMs 

Für verschiedene Variationen der Reprä¬ 
sentationsaufgaben gibt es auch verschie¬ 
dene Variationen der SOMs: 

10.7.1 Ein Neuronales Gas ist eine 

SOM ohne feste Topologie Die 


Die Idee von einem Neuronalen Gas be¬ 
steht grob gesprochen darin, ein SOM oh¬ 
ne Gitterstruktur zu realisieren. Die Lern¬ 
schritte sehen aufgrund der Abstammung 
von den SOMs den SOM-Lernschritten 
auch sehr ähnlich, haben aber einen zusätz¬ 
lichen Zwischenschritt: 

> Wieder zufällige Initialisierung der 

cfc e M n 

> Wahl und Präsentation eines Musters 
aus dem Eingangsraum p £ W 1 

> Neuronenabstandsmessung 

> Ermittlung des Gewinnerneurons i 

> Zwischenschritt: Bilden einer nach 
der Entfernung zum Gewinnerneuron 
aufsteigend sortierten Liste L von 
Neuronen. Erstes Neuron in der Liste 
L ist also das Neuron, was dem Ge¬ 
winnerneuron am nächsten liegt. 

> Ändern der Zentren durch die bekann¬ 
te Vorschrift, aber der leicht modifi¬ 
zierten Topologiefunktion 

h L (i,k,t). 


Das Neuronale Gas ist eine Variation 
der Seif Organizing Maps von Thomas 
Martinetz [MBS93 , die aus der Schwie¬ 
rigkeit heraus entstanden ist, komplizierte 
Inputformationen abzubilden, welche sich 


gegenüber der ursprünglichen 
Funktion h(i, k, t ) modifizierte Funktion 
hi(i,k,t) sieht nun jeweils die ersten 
Elemente der Liste als Nachbarschaft des 
Gewinnerneurons i an. Dies hat direkt 
zur Folge, dass sich - ähnlich der frei 
schwebenden Moleküle in einem Gas - 


Dynamische 

Nachbarschaft 
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10.7 Variationen 



Abbildung 10.9: E ine Figur, die verschiedene Unterräume des eigentlichen Eingaberaums zu ver¬ 
schiedenen Orten ausfüllt und daher durch eine SOM nur schwer ausgefüllt werden kann. 


die Nachbarschaftsbeziehungen zwischen 
den Neuronen jederzeit ändern können, 
auch die Anzahl der Nachbarn ist nahezu 
beliebig. Die Entfernung innerhalb 
der Nachbarschaft wird nun durch die 
Entfernung innerhalb des Eingaberaums 
repräsentiert. 

Die Masse der Neurone kann durch ei¬ 
ne stetig sinkende Nachbarschaftsgröße ge¬ 
nauso versteift werden, wie eine SOM - sie 
hat aber keine feste Dimension, sondern 
kann jeweils die Dimension annehmen, die 
lokal gerade gebraucht wird, was sehr vor¬ 
teilhaft sein kann. 


Es bleibt wie immer in der Pflicht des 
Anwenders, diese Arbeit bei allen Praxis¬ 
tipps nicht als Katalog für Patentlösungen 
zu verstehen, sondern selbst die Vor- und 
Nachteile zu erforschen. 

Anders als bei einer SOM muss sich die 
Nachbarschaft in einem Neuronalen Gas 
anfangs auf die Gesamtheit aller Neurone 
beziehen, weil sonst einige Ausreißer der 
zufälligen Initialisierung vielleicht nie in 
die Nähe der restlichen Gruppe kommen. 
Dies zu vergessen, ist ein sehr beliebter 
Fehler bei der Implementierung eines Neu¬ 
ronalen Gases. 


Von Nachteil kann sein, dass nicht durch 
ein festes Gitter erzwungen wird, dass der 
Inputraum relativ gleichmäßig abgedeckt 
wird, und so Löcher in der Abdeckung 
entstehen oder Neurone vereinsamen kön¬ 
nen. 


Mit einem Neuronalen Gas kann man auch 
eine sehr komplexe Inputform lernen, da 
wir nicht an ein festdimensionales Git¬ 
ter gebunden sind. Rechenaufwändig wer¬ 
den kann aber das dauernde Sortieren 
der Liste (hier kann es viel bringen, die 


Komplizierte 

Figuren 

klassifizierbar 
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Mehrere SOMs 


Liste gleich in einer von sich aus geord¬ 
neten Datenstruktur abzulegen). Ein Bei¬ 
spiel für solche Inputformen findet sich in 
Abb. |10.9 auf der vorangehenden Seite 

Definition 10.6 (Neuronales Gas). Ein 
Neuronales Gas unterscheidet sich von ei¬ 
ner SOM durch eine vollständig dyna¬ 
mische Nachbarschaftsfunktion. In jedem 
Lernzyklus wird neu entschieden, welche 
Neurone die Nachbarneurone des Gewin¬ 
nerneurons sind. In der Regel ist das Kri¬ 
terium für diese Entscheidung die Entfer¬ 
nung der Neurone zum Gewinnerneuron 
im Inputraum. 


10.7.2 Eine Multi-SOM besteht aus 
mehreren separaten SOMs 


Um eine weitere Variante der SOMs zu prä¬ 
sentieren, möchte ich eine erweiterte Pro¬ 
blemstellung formulieren: Was machen wir 
bei Eingabemustern, von denen wir vorher 
wissen, dass sie sich in verschiedene (viel¬ 
leicht disjunkte) Bereiche abgrenzen? 


Die Idee hierzu ist, nicht nur eine SOM 
zu nehmen, sondern gleich mehrere: Ei¬ 
ne Multi Seif Organizing Map , kurz 


M-SOM [GKE01b||GKE01a||GSÖ6] . Die 


SOMs müssen nicht die gleiche Topologie 
oder Größe haben, eine M-SOM ist nur ein 
Zusammenschluss aus M vielen SOMs. 


Der Lernvorgang funktioniert analog zu 
den einfachen SOMs - allerdings werden 
nur die Neurone, die zum Gewinner-SOM 
eines jeden Trainingsschritts gehören, ad¬ 
aptiert. Mit zwei SOMs ist es also einfach, 


zwei disjunkte Cluster Daten zu repräsen¬ 
tieren, selbst wenn einer davon nicht in al¬ 
len Dimensionen des Eingangsraumes 
vertreten ist. Die einzelnen SOMs spiegeln 
sogar genau die Cluster wieder. 

Definition 10.7 (Multi-SOM). Eine 
Multi-SOM ist nichts weiter als eine gleich¬ 
zeitige Verwendung von M vielen SOMs. 


10.7.3 Ein Multi-Neuronales Gas 
besteht aus mehreren 
separaten neuronalen Gasen 


Analog zum Multi-SOM haben wir hier 
wieder eine Menge von M vielen Neurona¬ 
len Gasen: ein Multi-Neuronales Gas 

(GS06, 


SG06 . Dieses Konstrukt verhält 


sich analog zu Neuronalem Gas und M- 
SOM: Es werden wieder nur die Neurone 
adaptiert, die im Gewinner-Gas sind. 


Der Leser wird sich natürlich fragen, was 
denn ein Multi-Neuronales Gas für Vortei¬ 
le bringt, da bereits ein einzelnes Neuro¬ 
nales Gas in der Lage ist, sich in Cluster 
zu zerteilen und auch auf komplizierten In- 
putmustern mit wechselnder Dimension zu 
arbeiten. Das ist zwar grundsätzlich rich¬ 
tig, doch es gibt zwei gravierende Vorteile 
eines Multi-Neuronalen Gases gegenüber 
einem einfachen Neuronalen Gas. 


1. Bei mehreren Gasen kann man jedem 
Neuron direkt ansehen, zu welchem 
Gas es gehört. Das ist insbesondere 
bei Clustering-Aufgaben wichtig, für 
die Multi-Neuronale Gase in jüngster 
Zeit genutzt werden. Einfache Neuro¬ 
nale Gase können zwar auch Cluster 


Mehrere Gase 
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Weniger 

Rechen¬ 

aufwand 


finden und abdecken, man sieht aber 
nicht, welches Neuron jetzt zu wel¬ 
chem Cluster gehört. 

2. Es spart enorm Rechenzeit, große 
Ursprungs-Gase in mehrere kleinere 
aufzuteilen, da (wie schon angespro¬ 
chen) das Sortieren der Liste L sehr 
viel Rechenzeit in Anspruch nehmen 
kann, das Sortieren von mehreren klei¬ 
neren Listen Li, L 2 ,..., Lm aber we¬ 
niger aufwändig ist - selbst dann, 
wenn diese Listen insgesamt genauso- 
viele Neurone enthalten. 


len Gases, dem nach bestimmten Regeln 
mehr und mehr Neurone hinzugefügt wer¬ 
den. Man versucht so, der Vereinsamung 
von Neuronen oder der Bildung großer Ab¬ 
deckungslöcher entgegenzuwirken. 

Es sei hier nur benannt, aber nicht weiter 
erforscht. 

Eine wachsende SOM zu konstruieren ist 
insofern schwieriger, als dass neue Neuro¬ 
ne in die Nachbarschaft eingegliedert wer¬ 
den müssen. 


Man erhält zwar nur lokale Sortierungen 
und keine globale, diese reichen aber in 
den meisten Fällen aus. 

Wir können nun zwischen zwei Extremfäl¬ 
len des Multi-Neuronalen Gases wählen: 
Der eine Extremfall ist das normale Neu¬ 
ronale Gas M = 1, wir verwenden al¬ 
so nur ein einziges Neuronales Gas. Inter¬ 
essanterweise verhält sich der andere Ex¬ 
tremfall (sehr großes M, wenige oder nur 
ein Neuron pro Gas) analog zum K-Means- 
Clustering (siehe zum Thema Clustering- 
verfahren auch den Exkurs 0- 

Definition 10.8 (Multi-Neuronales Gas). 
Ein Multi-Neuronales Gas ist nichts wei¬ 
ter als eine gleichzeitige Verwendung von 
M vielen Neuronalen Gasen. 


Übungsaufgaben 

Aufgabe 18. Mit einem regelmäßigen 
zweidimensionalen Gitter soll eine zweidi¬ 
mensionale Fläche möglichst „gut“ ausge¬ 
legt werden. 

1. Welche Gitterstruktur wäre hierfür 
am besten geeignet? 

2. Welche Kriterien für „gut“ bzw. „am 
besten“ haben Sie verwendet? 

Diese Aufgabe ist bewusst sehr schwam¬ 
mig formuliert. 


10.7.4 Wachsende neuronale Gase 
können sich selbst Neurone 
hinzufügen 

Ein Wachsendes Neuronales Gas ist 
eine Variation des beschriebenen Neurona- 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


171 





Kapitel 11 

Adaptive Resonance Theory 


Ein ART-Netz in seiner ursprünglichen Form soll binäre Eingabevektoren 
klassifizieren, also einer 1-aus-n-Ausgabe zuordnen. Gleichzeitig sollen bis jetzt 
unklassifizierbare Muster erkannt und einer neuen Klasse zugeordnet werden. 


Wie in anderen kleinen Kapiteln wollen 
wir wieder versuchen, die grundlegende 
Idee der Adaptive Resonance Theo¬ 
ry (Kurz: ART) zu ergründen, ohne ihre 
Theorie wirklich in der Tiefe zu betrach¬ 
ten. 


Mustererkennung zum Ziel hatte, genauer 
gesagt, die Einteilung von Mustern in Klas¬ 
sen - wobei ein ART-Netz aber zusätzlich 
in der Lage sein soll, neue Klassen zu fin¬ 
den. 


Wir haben bereits in verschiedenen Ab¬ 
schnitten angedeutet, dass es schwierig 
ist, mit Neuronalen Netzen neue Infor¬ 
mation zusätzlich zu bestehender „hin¬ 
zuzulernen“, ohne jedoch die bestehende 
Information zu zerstören - diesen Um¬ 
stand bezeichnen wir als Stabilitäts- 
Plastizitäts-Dilemma. 

1987 veröffentlichten Stephen Gross- 
berg und Gail Carpenter mit dem Ziel 
der Entschärfung dieser Problematik die 
erste Version ihres ART-Netzes |GrÖ76 j, 
der ab da eine ganze Familie von ART- 
Verbesserungen folgte (die wir ebenfalls 
noch kurz ansprechen wollen). 


11.1 Aufgabe und Struktur 
eines ART-Netzes 


Ein ART-Netz ist aufgebaut aus genau 
zwei Schichten: Der Eingabeschicht I 
und der Erkennungsschicht O, wobei die 
Eingabeschicht in Richtung der Erken¬ 
nungsschicht voll verknüpft ist. Diese Voll¬ 
verknüpfung gibt uns eine Top-Down- 
Gewichtsmatrix W an, die die Gewichts¬ 
werte von jedem Neuron der Eingabe¬ 
schicht zu jedem Neuron der Erkennungs¬ 


schicht enthält (Abb. 11.1 auf der folgen 


den Seite). 


Es handelt sich um eine Idee des unüber- An der Eingabeschicht werden einfach bi- 
wachten Lernens, die (zunächst binäre) näre Muster eingegeben, welche an die 

erkennung 
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Abbildung 11.1: Vereinfachte Darstellung des Aufbaus eines ART-Netzes. Oben die Eingabe¬ 
schicht, unten die Erkennungsschicht. Für die Abbildung außer Acht gelassen worden sind die 
laterale Inhibition der Erkennungsschicht und die Steuerungsneurone. 


Erkennungsschicht weitergegeben werden 
- während die Erkennungsschicht eine 1- 
aus-|0|-Kodierung ausgeben soll, also dem 
Winner-Takes-All-Schema folgen soll. Um 
diese l-aus-|0|-Kodierung zu realisieren, 
kann man beispielsweise das Prinzip der la¬ 
teralen Inhibition nutzen - oder in der Im¬ 
plementierung pragmatischerweise per IF- 
Abfrage das am stärksten aktivierte Neu¬ 
ron suchen. 


11.1.1 Resonanz erfolgt, indem 
Aktivitäten hin- und 
hergeworfen werden 

Zusätzlich gibt es aber noch eine Bottom- 
Up-Gewichtsmatrix V, die die Aktivitä¬ 
ten in der Erkennungsschicht wieder in die 


Eingabeschicht propagiert. Es ist nun of¬ 
fensichtlich, dass diese Aktivitäten immer 
hin- und hergeworfen werden, was den Be¬ 
griff der Resonanz ins Spiel bringt. Jede 
Aktivität der Eingabeschicht bewirkt eine 
Aktivität der Erkennungsschicht, während 
dort jede Aktivität wiederum eine Aktivi¬ 
tät in der Eingabeschicht bewirkt. 

Zusätzlich zu den zwei genannten Schich¬ 
ten existieren in einem ART-Netz noch ei¬ 
nige wenige Neurone, welche Kontrollfunk- 
tionen ausüben wie z.B. eine Signalverstär¬ 
kung. Deren Theorie soll hier nicht weiter 
betrachtet werden, da nur das grundlegen¬ 
de Prinzip der ART-Netze klar werden soll. 
Ich erwähne sie nur, um darzustellen, dass 
das Art-Netz nach einer Eingabe trotz der 
vorhandenen Rückkopplungen in einen sta¬ 
bilen Zustand gelangen wird. 


Schichten 

aktivieren 

sich 

gegenseitig 


174 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 



















dkriesel.com 


11.2 Lernvorgang 


11.2 Der Lernvorgang eines 
Artnetzes ist geteilt in 
Top-Down- und 
Bottom-Up-Lernen 


Das Netz wird also darauf trainiert, einge¬ 
gebene Vektoren zu verstärken. 

11.2.3 Hinzufügen eines 
Ausgabeneurons 


Gewinner¬ 

neuron 

wird 

verstärkt 


Eingabe ist 
Teach. Inp. 
für rückwärts 
gerichtete 
Gewichte 


Die Kunst der Adaptive Resonance Theo- 
ry liegt nicht nur in der Gestaltung des 
ART-Netzes, sondern auch in ihrem Lern¬ 
vorgang, der zweigeteilt ist: Wir trainie¬ 
ren zum einen die Top-Down-Matrix W 
und zum anderen die Bottom-Up-Matrix 
V (Abb. 11.2 auf der folgenden Seite). 


11.2.1 Mustereingabe und 
Top-Down-Lernen 


Es kann natürlich Vorkommen, dass die 
Neurone ungefähr gleich aktiviert sind 
oder mehrere Neurone aktiviert sind, das 
Netz also unentschlossen ist. In diesem 
Fall wird durch die Mechanismen der 
Steuerungsneurone ein Signal ausgelöst, 
das ein neues Ausgabeneuron hinzufügt. 
Das aktuelle Muster wird dann diesem 
Ausgabeneuron zugeordnet und die Ge¬ 
wichtssätze des neuen Neurons wie ge¬ 
wohnt trainiert. 


Wenn ein Muster in das Netz eingegeben 
wird, sorgt es wie schon gesagt für eine 
Aktivierung an den Ausgabeneuronen, wo¬ 
bei das stärkste Neuron gewinnt. Anschlie¬ 
ßend werden die zum Ausgabeneuron ge¬ 
henden Gewichte der Matrix W dahin¬ 
gehend verändert, dass die Ausgabe des 
stärksten Neurons fl noch verstärkt wird. 
Die Klassenzugehörigkeit des Eingabevek¬ 
tors zu der Klasse des Ausgabeneurons fl 
wird also verstärkt. 

11.2.2 Resonanz und 

Bottom-Up-Lernen 

Etwas tricky ist nun das Trainieren der 
rückwärtsgerichteten Gewichte der Matrix 
V : Es werden nur die Gewichte vom jewei¬ 
lige Gewinnerneuron zur Eingabeschicht 
trainiert und als Teaching Input unser ak¬ 
tuell angelegtes Eingabemuster verwendet. 


Die Stärke des Systems liegt also nicht 
nur darin, Eingaben in Klassen zu untertei¬ 
len und neue Klassen zu finden - es kann 
uns bei Aktivierung eines Ausgabeneurons 
auch sagen, wie ein typischer Vertreter ei¬ 
ner Klasse aussieht - ein bedeutendes Fea¬ 
ture. 

Oft kann das System Muster aber nur 
mäßig gut unterscheiden. Die Frage ist, 
wann einem neuen Neuron erlaubt wird, 
aktiv zu werden und wann gelernt wer¬ 
den soll. Auch um diese Fragen zu beant¬ 
worten, existieren in einem ART-Netz ver¬ 
schiedene zusätzliche Kontrollneurone, die 
diese Fragen nach verschiedenen mathema¬ 
tischen Regeln beantworten und dafür zu¬ 
ständig sind, Spezialfälle abzufangen. 

Hier benennen wir einen der größten Kri¬ 
tikpunkte an ART: Ein ART-Netz verwen¬ 
det eine Spezialfallunterscheidung ähnlich 
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einer IF-Abfrage, die man in den Mecha¬ 
nismus eines Neuronalen Netzes gepresst 
hat. 


11.3 Erweiterungen 


Wie schon eingangs erwähnt, wurden die 
ART-Netze vielfach erweitert. 


ART-2 [CG87 ist eine Erweiterung auf 
kontinuierliche Eingaben und bietet zu¬ 
sätzlich (in einer ART-2A genannten 
Erweiterung) Verbesserungen der Lernge¬ 
schwindigkeit, was zusätzliche Kontroll- 
neurone und Schichten zur Folge hat. 


ART-3 [CG90 verbessert die Lernfähig¬ 


keit von ART-2, indem zusätzliche biologi¬ 
sche Vorgänge wie z.B. die chemischen Vor¬ 
gänge innerhalb der Synapsen adaptiert 
werden 1 . 


Zusätzlich zu den beschriebenen Erweite¬ 
rungen existieren noch viele mehr. 


Abbildung 11.2: Vereinfachte Darstellung des 
zweigeteilten Trainings eines ART-Netzes: Die 
jeweils trainierten Gewichte sind durchgezogen 
dargestellt. Nehmen wir an, ein Muster wurde in 
das Netz eingegeben und die Zahlen markieren 
Ausgaben. Oben: Wie wir sehen, ist fL das Ge¬ 
winnerneuron. Mitte: Also werden die Gewichte 
zum Gewinnerneuron hin trainiert und (unten) 
die Gewichte vom Gewinnerneuron zur Eingangs¬ 
schicht trainiert. 


1 Durch die häufigen Erweiterungen der Adaptive 
Resonance Theory sprechen böse Zungen bereits 
von „ART-?r-Netzen“. 
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Anhang A 

Exkurs: Clusteranalyse und Regional and 
Online Learnable Fields 


Das Grimmsche Wörterbuch beschreibt das heute ausgestorbene deutsche 
Wort „Kluster" mit „was dicht und dick zusammensitzet". In der statistischen 
Clusteranalyse wird die Gruppenbildung innerhalb von Punktwolken 
untersucht. Vorstellung einiger Verfahren, Vergleich ihrer Vor- und Nachteile. 
Betrachtung eines lernenden Clusteringverfahrens auf Basis Neuronaler Netze. 
Ein Regional and Online Learnable Field modelliert aus einer Punktwolke mit 
womöglich sehr vielen Punkten eine vergleichsweise kleine Menge von für die 

Punktwolke repräsentativen Neuronen. 


Wie schon angedeutet, lassen sich viele 
Problemstellungen auf Probleme der 
Clusteranalyse zurückführen. Dies 
macht die Erforschung von Verfahren 
notwendig, die untersuchen, ob sich 
innerhalb von Punktwolken Gruppen (sog. 
Cluster ) herausbilden. Da Verfahren 
zur Clusteranalyse für ihre Arbeit einen 
Abstandsbegriff zwischen zwei Punkten 
brauchen, muss auf dem Raum, in dem 
sich die Punkte finden, eine Metrik 
definiert sein. Wir wollen also kurz darauf 
eingehen, was eine Metrik ist. 

Definition A.l (Metrik). Eine Relation 
dist(x'i, x' 2 ), die für zwei Objekte x\,x 2 de¬ 
finiert ist, heißt Metrik, wenn jedes der fol¬ 
genden Kriterien gilt: 


1 . dist(cci, X 2 ) = 0 genau dann, wenn 

xi = x 2 , 

2. dist(xi,X 2 ) = dist(& 2 , # 1 ), also Sym¬ 
metrie, 

3. dist(cci,£ 3 ) < dist(xi,X 2 ) + 

dist(x 2 , X3), d. h. die Dreiecksunglei¬ 
chung gilt. 

Umgangssprachlich ausgedrückt, ist eine 
Metrik ein Werkzeug, Abstände von Punk¬ 
ten in einem beliebig gearteten Raum fest¬ 
zustellen. Abstände müssen hierbei sym¬ 
metrisch sein, und der Abstand zwischen 
zwei Punkten darf nur 0 sein, wenn beide 
Punkte gleich sind. Zudem muss die Drei¬ 
ecksungleichung gelten. 


179 



Anhang A Exkurs: Clusteranalyse und Regional and Online Learnable Fields dkriesel.com 


Metriken liefert uns beispielsweise der 
quadratische Abstand und der Eukli¬ 
dische Abstand, welche wir schon ken¬ 
nengelernt haben. Aufbauend auf eine sol¬ 
che Metrik kann man Clusteringverfahren 
definieren, die eine Metrik als Abstands¬ 
maß verwenden. 

Wir wollen nun verschiedene Clustering¬ 
verfahren vorstellen und kurz diskutie¬ 
ren. 


A.l k-Means Clustering teilt 
Daten in eine 
vordefinierte Anzahl 
Cluster ein 


k-Means Clustering 

Queen [Mac67| ist 


seiner 


der aufgrund 
und Speicherkomplexität 
det wird und allgemein als 
angesehen wird. Der Algorithmus k-Means 
Clustering hat folgenden Arbeitsablauf: 


nach -J. Mac- 
ein Algorithmus, 
niedrigen Rechen¬ 
häufig verwen- 
„billig und gut“ 


1. Daten bereitstellen, die untersucht 
werden sollen 

2. k, die Anzahl der Clusterzentren, de¬ 
finieren 


3. k viele zufällige Vektoren für die Clus¬ 
terzentren wählen (auch Codebook- 
vektoren genannt). 

4. Jeden Datenpunkt dem nächsten Co- 
debookvektor 1 zuordnen 

1 Der Name Codebookvektor entstand, weil die oft 
verwendete Bezeichnung Clustervektor zu missver¬ 
ständlich war. 


5. Clusterschwerpunkte für alle Cluster 
berechnen 

6 . Codebookvektoren auf neue Cluster¬ 
schwerpunkte setzen. 

7. Bei [4] weitermachen, bis keine Zuord¬ 
nungsänderungen mehr eintreten. 

Bei Punkt [2] sieht man schon eine der 
großen Fragen des k-Means-Algorithmus: 
Man muss im Vorhinein selbst die An¬ 
zahl k der Clusterzentren bestimmen, dies 
nimmt einem das Verfahren also nicht ab. 
Das Problem ist, dass man im Vorhinein 
nicht unbedingt weiß, wie k am besten 
bestimmt werden kann. Ein weiteres Pro¬ 
blem ist, dass das Verfahren recht insta¬ 
bil werden kann, wenn die Codebookvek¬ 
toren schlecht initialisiert werden. Da dies 
aber zufällig geschieht, hilft oft schon ein 
Neustart des Verfahrens, das zudem nicht 
sehr rechenaufwändig ist, was wiederum 
ein Vorteil ist. Verwenden Sie es im Be¬ 
wusstsein dieser Schwächen, und Sie wer¬ 
den recht gute Ergebnisse erhalten. 

Komplizierte Strukturen, wie „Cluster in 
Clustern“ können allerdings nicht erkannt 
werden. Bei einem hoch gewählten k wür¬ 
de der äußere Ring dieser Konstruktion in 
der Abbildung als viele einzelne Cluster er¬ 
kannt, bei einer niedrigen Wahl von k wür¬ 
de der Ring mit dem kleinen innenliegen¬ 
den Cluster als ein Cluster gesehen. 

Siehe für eine Veranschaulichung den obe¬ 
ren rechten Teil der Abb. IA.1 auf Seitei 

ESC 


Vorher muss 
Clusterzahl 
bekannt 
sein 
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A.3 e-Nearest Neighbouring 


Clustering 
über nächste 
Punkte 


A.2 k-Nearest Neighbouring 
sucht die k nächsten 
Nachbarn jeden 
Datenpunkts 


Das 

Verfahren 


k-Nearest 
[CH67 


Neighbouring- 

ver bindet jeden 


Datenpunkt mit den jeweils k vielen 
nächsten Nachbarn, was oft eine 

Unterteilung in Gruppen zur Folge hat. 
Eine solche Gruppe bildet dann einen 
Cluster. Der Vorteil ist hier, dass die 
Clusteranzahl von alleine entsteht 
der Nachteil ein recht großer Speicher¬ 
und Rechenaufwand, um die nächten 
Nachbarn zu finden (es muss der 
Abstand von jedem zu jedem Datenpunkt 
ausgerechet und gespeichert werden). 


Es gibt außerdem Spezialfälle, in denen 
das Verfahren bei zu großer Wahl von 
k Datenpunkte zusammenschließt, die ei¬ 
gentlich in verschiedene Cluster gehören 
(siehe die beiden kleinen Cluster oben 
rechts in der Abbildung). Cluster, die nur 
aus einem einzigen Datenpunkt bestehen, 
werden grundsätzlich mit einem anderen 
Cluster zusammengeschlossen, auch das 
ist nicht immer gewollt. 


Weiterhin müssen die Bindungen unter 
den Punkten nicht symmetrisch sein. 


Das Verfahren ermöglicht es aber, Ringe 
und somit auch „Cluster in Clustern“ zu 
erkennen, ein eindeutiger Vorteil. Weite¬ 
rer Vorteil ist, dass das Verfahren adap¬ 
tiv auf die Entfernungen in und zwischen 
Clustern eingeht. 


Siehe für eine Veranschaulichung den un¬ 
teren linken Teil der Abb. IA.1I 


A.3 s-Nearest Neighbouring 
sucht für jeden 
Datenpunkt Nachbarn im 
Radius e 


Ein anderer Ansatz des Neighbourings: 
Hier geht die Nachbarschaftsfindung nicht 
über eine feste Anzahl k von Nachbarn, 
sondern über einen Radius e - daher 
der Name Epsilon-Nearest Neighbou¬ 
ring. Punkte, die maximal e weit vonein¬ 
ander entfernt sind, sind Nachbarn. Hier 
ist der Speicher- und Rechenaufwand au¬ 
genscheinlich wieder sehr hoch, was ein 
Nachteil ist. 

Achtung, auch hier gibt es Spezialfälle: 
Zwei an sich getrennte Cluster können 
hier durch die ungünstige Lage eines ein¬ 
zigen Datenpunkts einfach verbunden wer¬ 
den. Dies kann zwar auch beim fc-Nearest 
Neighbouring passieren, jedoch schwerer, 
da die Anzahl der Nachbarn pro Punkt 
dort begrenzt ist. 

Vorteil ist die symmetrische Natur der 
Nachbarschaftsbeziehungen. Weiterer Vor¬ 
teil ist, dass nicht aufgrund einer festen 
Nachbaranzahl Kleinstcluster zusammen¬ 
geschlossen werden. 

Auf der anderen Seite muss aber e ge¬ 
schickt initialisiert werden, um hier Erfol¬ 
ge zu erzielen, nämlich kleiner als die Hälf¬ 
te des kleinsten Abstands zwischen zwei 


Clustering 

über 

Radien um 
Punkte 
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Clustering- 

güte 

messbar 


Clustern. Dies ist bei sehr variablen Clus¬ 
terabständen und Punktabständen inner¬ 
halb von Clustern unter Umständen ein 
Problem. 

Siehe für eine Veranschaulichung den un¬ 
teren rechten Teil der Abb. IA.1I 


A.4 Der 

Silhouettenkoeffizient 
macht die Güte eines 
gegebenen Clusterings 
messbar 


Wie wir oben sehen, gibt es keine Patent¬ 
lösung für Clusteringproblerne, denn jedes 
dargestellte Verfahren hat seine ganz spe¬ 
zifischen Nachteile. Insofern ist es wert¬ 
voll, ein Kriterium dafür zu haben, wie gut 
unsere Clustereinteilung ist. Genau diese 
Möglichkeit bietet uns der Silhouetten¬ 
koeffizient nach [Kau90|. Er misst, wie 
gut die Cluster voneinander abgegrenzt 
sind, und ist ein Indikator dafür, ob viel¬ 
leicht Punkte in falsche Cluster einsortiert 
sind. 


Sei P eine Punkt wo lke und sei p ein Punkt 
G P. Sei c C P ein Cluster in der Punkt¬ 
wolke und gehöre p in diesen Cluster, also 
pGc. Die Menge der Cluster nennen wir 
C. Zusammengefasst gilt also 


allen seinen Clusternachbarn. Diese Grö¬ 
ße nennen wir a(p) und definieren sie wie 
folgt: 

a(p) = \ c \ 1 _ 1 dist (p,q) (A.l) 

q£c,q^p 

Sei weiterhin b(p) der durchschnittliche 
Abstand unseres Punktes p zu allen Punk¬ 
ten des nächsten anderen Clusters {g läuft 
über alle Cluster außer c): 

KP) = min —y] dist (p,g) (A.2) 

9&C,g^c \g\ ^ 

Der Punkt p ist gut klassifiziert, wenn 
der Abstand zum Schwerpunkt des eige¬ 
nen Clusters minimal und der Abstand 
zu den Schwerpunkten der anderen Clus¬ 
ter maximal ist. Ist dies der Fall, so wird 
der folgende Term einen Wert nahe 1 erge¬ 
ben: 

= b(p)-a(p) 

ma x{a(p),b(p)} 

Der ganze Term s(p) kann sich offensicht¬ 
lich nur im Intervall [—1; 1] bewegen. Indi¬ 
kator für eine schlechte Klassifikation von 
p ist ein Wert nahe -1. 

Der Silhouettenkoeffizient S(P) ergibt 
sich aus dem Durchschnitte aller s(p)~ 
Werte: Es gilt 

s ( p ) = 4 E s (?)- ( a - 4 ) 

I I p£P 


p € c C P. 

Um den Silhouettenkoeffizient zu errech¬ 
nen, benötigen wir zunächst den durch¬ 
schnittlichen Abstand des Punktes p zu 


Die Gesamtgüte der Clustereinteilung 
drückt sich wie oben durch das Intervall 
[—1; 1] aus. 

Nachdem wir nun die Charakteristiken ver¬ 
schiedener Clusteringmethoden sowie ein 
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Abbildung A.l: Oben links: Unsere Punktmenge. An ihr werden wir die verschiedenen Cluste- 
ringverfahren erforschen. Oben rechts: fc-Means Clustering. Bei der Anwendung dieses Verfah¬ 
rens wurde k = 6 gewählt. Wie wir sehen, kann das Verfahren „Cluster in Clustern" nicht erkennen 
(unten links im Bild). Auch lange „Linien" von Punkten bereiten Schwierigkeiten: Sie würden als 
viele kleine Cluster erkannt werden (bei ausreichend großer Wahl von k). Unten links: fc-Nearest 
Neighbouring. Bei zu großer Wahl von k (größer als die Punktanzahl des kleinsten Clusters) 
kommt es zu Clusterzusammenschlüssen, wie man oben rechts im Bild sehen kann. Unten rechts: 
e-Nearest Neighbouring. Dieses Verfahren bereitet Schwierigkeiten, wenn e größer gewählt ist als 
der minimale Abstand zwischen zwei Clustern (sichtbar oben links im Bild) - diese werden dann 
zusammengeschlossen. 
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Maß zur Qualitätsbeurteilung einer be¬ 
reits existierenden Unterteilung in Cluster 
kennengelernt haben (viel weiteres Mate¬ 
rial findet sich in |DHSOl]), möchte ich 
ein 2005 veröffentlichtes Clusteringverfah- 
ren auf Basis eines unüberwacht lernen¬ 
den Neuronalen Netzes |SGE05 vorstel¬ 
len, welches wie alle dieser Verfahren wahr¬ 
scheinlich nicht perfekt ist, aber doch 
große Standard-Schwächen von den be¬ 
kannten Clusteringverfahren ausmerzt - 
auch, um einmal eine vergleichsweise hoch¬ 
aktuelle Entwicklung im Bereich der Neu¬ 
ronalen Netze darzustellen. 


A.5 Regional and Online 

Learnable Fields sind ein 

neuronales 

Clusteringverfahren 


Das Paradigma Neuronaler Netze, welches 
ich nun vorstellen möchte, sind die Regio¬ 
nal and Online Learnable Fields , kurz 
ROLFs genannt. 


hinzugefügt, verschoben oder in ihrer Grö¬ 
ße verändert. Die Parameter der einzelnen 
Neurone werden wir noch erforschen. 

Definition A.2 (Regional and Online 
Learnable Field). Ein Regional and On¬ 
line Learnable Field (kurz: ROLF oder 
ROLF-Netz) ist eine Menge K von Neuro¬ 
nen, welche darauf trainiert werden, eine 
bestimmte Menge im Eingaberaum mög¬ 
lichst gut abzudecken. 


A.5.1.1 ROLF-Neurone besitzen 
Position und Radius im 
Eingaberaum 

Ein ROLF-Neuron k G K hat hierbei 
zwei Parameter: Es besitzt ähnlich der 
RBF-Netze ein Zentrum c/, : , also einen 
Ort im Eingaberaum. 

Es besitzt aber noch einen weiteren Para¬ 
meter: Den Radius er, der den Radius der 
perzeptiven Fläche , welche das Neuron 
umgibt, erst definiert 2 . Ein Neuron deckt 
den Anteil des Eingaberaums ab, der in¬ 
nerhalb des Radius liegt. 


c 


a 


A.5.1 ROLFs versuchen, mit 
Neuronen Datenwolken 
abzudecken 


Sowohl Ck als auch er*, sind für jedes Neu¬ 
ron lokal definiert, das heißt insbesonde¬ 
re, dass die Neurone verschieden große Flä¬ 
chen abdecken können. 


Neuron 

reprä¬ 

sentiert 

Fläche 


K 


Netz deckt 
Punktwolke 
ab 


Grob gesagt sind die Regional and Online 
Learnable Fields eine Menge K von Neuro¬ 
nen, die versuchen, eine Menge von Punk¬ 
ten durch ihre Verteilung im Eingaberaum 
möglichst gut abzudecken. Hierfür werden 
während des Trainings bei Bedarf Neurone 


Der Radius der perzeptiven Fläche ist 
durch r = p ■ a gegeben (Abb. A.2 auf 


der rechten Seite), wobei der Multiplika¬ 


tor p für alle Neurone global definiert ist 


2 Ich schreibe daher „definiert“ und nicht „ist", weil 
der eigentliche Radius ja durch er ■ p gegeben ist. 
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No 

k a-p 


Abbildung A.2: Aufbau eines ROLF-Neurons. 


und im Vorhinein festgelegt wird. Der Le¬ 
ser wird sich nun intuitiv fragen, wozu die¬ 
ser Multiplikator gut ist. Wir werden sei¬ 
ne Bedeutung später noch erforschen. Zu 
beachten ist weiterhin: Die perzeptive Flä¬ 
che der verschiedenen Neurone muss nicht 
gleich groß sein. 

Definition A.3 (ROLF-Neuron). Ein 
ROLF-Neuron k besitzt als Parameter ein 
Zentrum Ck sowie einen Radius ak- 

Definition A.4 (Perzeptive Fläche). Die 
perzeptive Fläche eines Rolf-Neurons k be¬ 
steht aus allen Punkten, welche im Einga¬ 
beraum innerhalb des Radius p ■ a liegen. 


A.5.2 ROLFs lernen unüberwacht 
durch Online-Präsentation 
von Trainingsbeispielen 

Wie viele andere Paradigmen Neuronaler 
Netze lernt unser ROLF-Netz durch die 
Eingabe vieler Trainingsbeispiele p aus ei¬ 
ner Trainingsmenge P. Das Lernen findet 
unüberwacht statt. Für jedes Trainingsbei¬ 
spiel p, welches in das Netz eingegeben 
wird, können zwei Fälle eintreten: 

1. Es existiert ein akzeptierendes Neu¬ 
ron k für p oder 

2. es existiert kein akzeptierendes Neu¬ 
ron. 

Falls im ersteren Fall mehrere Neurone 
in Frage kommen, existiert insofern genau 
ein akzeptierendes Neuron, als dass 
das nächstgelegene akzeptierend ist. Beim 
akzeptierenden Neuron k werden Ck und 
angepasst. 

Definition A.5 (Akzeptierendes Neuron). 
Damit ein ROLF-Neuron k ein akzeptie¬ 
rendes Neuron eines Punktes p ist, muss 
der Punkt p innerhalb der perzeptiven Flä¬ 
che von k liegen. Liegt p in den perzepti¬ 
ven Flächen mehrerer Neurone, so ist das 
nächstliegende akzeptierend. Gibt es meh¬ 
rere nächste Neurone, kann willkürlich ei¬ 
nes ausgewählt werden. 

A.5.2.1 Sowohl Positionen als auch 
Radien werden beim Lernen 
adaptiert 

Angenommen, wir haben ein Trainingsbei¬ 
spiel p in das Netz eingegeben und es exis- 


Adaption 

von 

vorhandenem 

Neuron 
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V<t,Vc 


P 


Damit 

Neurone 

wachsen 

können 


tiert ein akzeptierendes Neuron k. Dann 
wandert der Radius in Richtung \\p — c k \\ 
(also in Richtung des Abstandes zwischen 
p ud Cfc) und das Zentrum c k in Richtung 
von p. Zusätzlich seien zwei Lernraten r] a 
und r] c für Radien und Zentren definiert. 

Ck(t + 1) = c k (t) + 7j c (p - c k (t)) 

a k (t+ 1) = crfc(t) + Vct(\\p ~ Ck(t)\ \ - o-fc(f)) 

Hierbei ist zu beachten, dass a k ein Ska¬ 
lar ist, während c k ein Vektor im Eingabe¬ 
raum ist. 

Definition A.6 (Adaption eines ROLF- 
Neurons). Ein zu einem Punkt p akzep¬ 
tierendes Neuron k wird nach folgenden 
Regeln adaptiert: 

c k (t + 1) = c fc (t) + 7j c (p - c k (t )) (A.5) 

cr k {t + 1) = a k {t) + rjviWp - c k (t)\ \ - a k{t)) 

(A.6) 

A.5.2.2 Der Radiusmultiplikator sorgt 
dafür, dass Neurone nicht nur 
schrumpfen können 

Nun können wir auch verstehen, wozu der 
Multiplikator p da ist: Durch ihn umfasst 
die perzeptive Fläche eines Neurons mehr 
als nur alle Punkte um das Neuron im Ra¬ 
dius a. Das bedeutet, dass er durch die 
obige Lernregel nicht nur schrumpfen, son¬ 
dern auch wachsen kann. 

Definition A.7 (Radiusmultiplikator). 
Der Radiusmultiplikator p > 1 ist global 
definiert und vergrößert die perzeptive Flä¬ 
che eines Neurons k auf ein Vielfaches von 
cr k . So ist sicher gestellt, dass der Radius 


a k auch wachsen und nicht nur schrump¬ 
fen kann. 

Der Radiusmultiplikator wird üblicherwei¬ 
se auf Werte im unteren einstelligen Be¬ 
reich gesetzt, wie z.B. 2 oder 3. 

Wir haben bis jetzt nur den Fall im ROLF- 
Training betrachtet, dass für ein Trainings¬ 
beispiel p ein akzeptierendes Neuron exis¬ 
tiert. 

A.5.2.3 Nach Bedarf werden neue 
Neurone erzeugt 

Dies legt nahe, die Vorgehensweise zu er¬ 
forschen, falls kein akzeptierendes Neuron 
existiert. 

Wenn dies der Fall ist, so wird einfach ein 
akzeptierendes Neuron k für unser Trai¬ 
ningsbeispiel neu erzeugt. Dies hat zur Fol¬ 
ge, dass natürlich c k und a k initialisiert 
werden müssen. 

Intuitiv verstehbar ist die Initialisierung 
von c k : Das Zentrum des neuen Neurons 
wird einfach auf das Trainingsbeispiel ge¬ 
setzt, es gilt also 

c k = p- 

Wir erzeugen ein neues Neuron, weil keins 
in der Nähe von p ist - also setzen wir das 
Neuron sinnvollerweise genau auf p. 

Doch wie wird ein a gesetzt, wenn ein neu¬ 
es Neuron gebildet wird? Hierfür gibt es 
verschiedene Taktiken: 

Init-cr: Es wird immer ein vorherbestimm¬ 
tes, statisches er gewählt. 
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Initialisierung 

eines 

Neurons 


Minimum-cr: Wir schauen uns die a al¬ 
ler Neurone an und wählen das Mini¬ 
mum. 

Maximum-rr: Wir schauen uns die er al¬ 
ler Neurone an und wählen das Ma¬ 
ximum. 

Mean-cr: Der Mittelwert der u aller Neu¬ 
rone wird gewählt. 

Aktuell ist die Mean-er-Variante die favori¬ 
sierte, obwohl das Lernverfahren mit den 
anderen auch funktioniert. Die Minimum- 
cr-Variante lässt die Neurone hierbei ten¬ 
denziell weniger Fläche einnehmen, die 
Maximum-cr-Variante tendenziell mehr. 

Definition A.8 (Erzeugen eines ROLF- 
Neurons). Wird ein neues ROLF-Neuron 
k durch Eingabe eines Trainingsbeispiels p 
erzeugt, so wird q, mit p initialisiert und 
Uk nach einer der obigen Strategien (Init- 
cr, Minimum-cr, Maximum-cr, Mean-cr). 

Ein gutes Kriterium für ein Trainingsen¬ 
de ist, wenn nach immer wieder zufällig 
permutierter Präsentation der Muster bei 
einer Epoche kein neues Neuron mehr er¬ 
zeugt wurde und die Neuronenpositionen 
sich kaum noch verändern. 

A.5.3 Auswertung eines ROLFs 

Der Trainingsalgorithmus hat zur Folge, 
dass die ROLF-Neurone nach und nach 
die Trainingsmenge recht gut und genau 
abdecken, und dass eine hohe Konzentra¬ 
tion von Punkten an einem Fleck des Ein¬ 
gaberaums nicht automatisch mehr Neuro¬ 
ne erzeugen muss. Eine unter Umständen 


sehr große Punktwolke wird also auf (rela¬ 
tiv zur Eingabemenge) sehr wenige Reprä¬ 
sentanten reduziert. 

Die Anzahl der Cluster lässt sich dann 
sehr einfach bestimmen: Zwei Neurone 
sind (nach Definition beim ROLF) verbun¬ 
den, wenn deren perzeptive Flächen sich 
überlappen (es wird also eine Art Nea- 
rest Neighbouring mit den variablen per- 
zeptiven Flächen ausgeführt). Ein Cluster 
ist eine Gruppe von verbundenen Neuro¬ 
nen bzw. von diesen Neuronen abgedeck¬ 
ten Punkten des Eingaberaums (Abb. |A.3 
auf der folgenden Seite). 


Selbstverständlich kann man das fertige 
ROLF-Netz auch mit anderen Clustering- 
verfahren auswerten, also Cluster in den 
Neuronen suchen. Insbesondere bei Cluste- 
ringverfahren, deren Speicheraufwand qua¬ 
dratisch zu |P| steigt, kann der Speicher¬ 
aufwand so dramatisch reduziert werden, 
da es in aller Regel wesentlich weniger 
ROLF-Neurone als ursprüngliche Daten¬ 
punkte gibt, die Neurone die Datenpunkte 
aber recht gut repräsentieren. 


A.5.4 Vergleich mit populären 
Clusteringverfahren 

Es ist offensichtlich, dass der Löwenan¬ 
teil des Speicheraufwands bei den ROLFs 
beim Speichern der Neurone liegt und 
nicht etwa beim Speichern von Einga¬ 
bepunkten. Dies ist von großem Vorteil 
bei riesigen Punktwolken mit sehr vielen 
Punkten. 


Cluster = 

verbundene 

Neurone 


Wenig 

Speicher¬ 

verbrauch! 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 


187 








Anhang A Exkurs: Clusteranalyse und Regional and Online Learnable Fields dkriesel.com 


XX 

XX 

XX 

XX 

XX 

XX 

XX 

XX 

xxxxxxxxxxxxxx 

X X 

X X 

X X 

X XX X 

X XX X 

X X 

X X 

X X 

xxxxxxxxxxxxxx 

X 

X 

X 

X 

XX 

xxxxxxxx 

xxxxxxxxxxxx 

xxxxxxxxxxxxxx 

xxxxxxxxxxxxxxx 

xxxxxxxxxxxxxxx 

xxxxxxxxxxxxxx 

xxxxxxxxxxxx 

xxxxxxxx 

XX 

(xx) 

\$x) 

(xx) 

\xx) 

Yx) cxN 

Zx»()t)<>i5b^x^x^xj 

0 

© 

/- XX 

/ xxxxxxxx \ 
/xxxxxxxxxxxxX 

/XXXXXXXXXXXXXX 

xxxxxxxxxxxxxxx 
xxxxxxxxxxxxxxx) 
xxxxxxxxxxxxxx/ 

\xxxxxxxxxxxx / 

\ xxxxxxxx / 

\. XX y/ 

t 

t 

0 

• 

• 


Abbildung A.3: Ablauf des Clusterings durch 
ein ROLF. Oben die Eingabemenge, in der Mit¬ 
te die Abdeckung durch ROLF-Neurone, un¬ 
ten die reine Abdeckung durch die Neurone 
(Repräsentanten). 


Unser ROLF als neuronales Clustering- 
verfahren hat also, da die Datenpunkte 
nicht komplett gespeichert werden müs¬ 
sen, die Fähigkeit des Online-Lernens, 
was zweifellos einen großen Vorteil dar¬ 
stellt. Weiterhin kann es (ähnlich dem 
e Nearest Neighbouring bzw. k Nearest 
Neighbouring) Cluster von eingeschlosse¬ 
nen Clustern unterscheiden - jedoch durch 
die Online-Präsentation der Daten ohne 
quadratischen Speicheraufwand, der mit 
Abstand der größte Nachteil der beiden 
Neighbouring-Verfahren ist. 

Es wird weiterhin durch die variablen per- 
zeptiven Flächen auf die Größe der jeweili¬ 
gen Cluster im Verhältnis zu ihrer Entfer¬ 
nung voneinander eingegangen - was eben¬ 
falls bei den beiden genannten Verfahren 
nicht immer der Fall ist. 

Im Vergleich mit dem L’-Means-Clustering 
schneidet das ROLF auch gut ab: Erstens 
muss man nicht die Clusteranzahl im Vor¬ 
hinein wissen, zum zweiten erkennt das 
/c-Means-Clustering Cluster, die von ande¬ 
ren Clustern eingeschlossen sind, nicht als 
separate Cluster an. 

A.5.5 Die Initialisierung von Radien, 
Lernraten und Multiplikator 
ist nicht trivial 

Natürlich sollen auch die Nachteile des 
ROLFs nicht verschwiegen werden: Es ist 
nicht immer leicht, den Initialwert für die 
a und das p gut zu wählen. In das p und 
den u-Startwert kann man dem ROLF so¬ 
zusagen das Vorwissen über die Datenmen¬ 
ge mitgeben: Feinkörnig geclusterte Daten 


„Cluster in 

Clustern" 

erkennbar 
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sollten ein kleines p und einen kleinen a- 
Startwert verwenden. Je kleiner aber das 
p, desto weniger Chance haben die Neuro¬ 
nen, größer zu werden, wenn nötig. Hier 
gibt es wieder keine Patentrezepte, genau 
wie für die Lernraten ry c und r) a . 

Beliebt für p sind Multiplikatoren im un¬ 
teren einstelligen Bereich, wie 2 oder 3. 
Bei rj c und T] a wird mit Werten um 0.005 
bis 0.1 erfolgreich gearbeitet, auch bei die¬ 
sem Netztyp sind Variationen zur Laufzeit 
denkbar. Startwerte für a hängen in der 
Regel sehr von der Cluster- und Daten¬ 
streuung ab (müssen also oft ausprobiert 
werden), wobei diese gegenüber falschen 
Initialisierungen zumindest bei der Mean- 
(j-Strategie nach einiger Trainingszeit rela¬ 
tiv robust sind. 

Insgesamt muss sich das ROLF im Ver¬ 
gleich zu den anderen Clusteringverfahren 
durchaus nicht verstecken und wird ins¬ 
besondere für speicherarme Systeme oder 
sehr große Datenmengen sehr interessant 
sein. 


A.5.6 Anwendungsbeispiele 

Ein erstes Anwendungsbeispiel könnte z.B. 
das Finden von Farbclustern in RGB- 
Bildern sein. Ein weiteres direkt in der 
ROLF-Veröffentlichung beschriebenes Ein¬ 
satzgebiet ist das Erkennen von Worten, 
welche in einen 720dimensionalen Merk¬ 
malsraum überführt wurden - wir sehen 
also, dass die ROLFs auch gegenüber höhe¬ 
ren Dimensionen relativ robust sind. Wei¬ 
tere mir bekannte Anwendungsgebiete lie¬ 


gen in der Entdeckung und Zuordnung von 
Angriffen auf Netzwerksysteme. 

Übungsaufgaben 

Aufgabe 19. Bestimmen Sie mindestens 
vier Adaptionsschritte für ein einzelnes 
ROLF-Neuron k, wenn die vier untenste¬ 
henden Muster nacheinander in der an¬ 
gegebenen Reihenfolge präsentiert werden. 
Die Startwerte für das ROLF-Neuron sei¬ 
en Cfc = (0.1,0.1) und Ofc = 1. Weiter gelte 
r] c = 0.5 sowie r] a = 0. Sei p = 3. 

P= {(0.1,0.1); 

= (0.9,0.1); 

= (0.1,0.9); 

= (0.9,0.9)}. 
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Anhang B 

Exkurs: Neuronale Netze zur Vorhersage 


Betrachtung einer Anwendung Neuronaler Netze: Ein Blick in die Zukunft von 

Zeitreihen. 


Nach Betrachtung verschiedenster Para¬ 
digmen Neuronaler Netze ist es sinnvoll, 
nun eine Anwendung Neuronaler Netze 
zu betrachten, die viel thematisiert und 
(wie wir noch sehen werden) auch für Be¬ 
trug genutzt wird: Die Anwendung der 
Zeitreihenvorhersage. Dieses Exkurska¬ 
pitel gliedert sich hierbei in die Beschrei¬ 
bung von Zeitreihen und Abschätzungen, 
unter welchen Voraussetzungen man über¬ 
haupt nur Werte einer Zeitreihe Vorhersa¬ 
gen kann. Zum Schluß möchte ich noch et¬ 
was zu den häufigen Softwareangeboten sa¬ 
gen, die mit Hilfe Neuronaler Netze oder 
anderer Verfahren Aktienkurse oder ande¬ 
re wirtschaftliche Kenngrößen Vorhersagen 
sollen. 

Das Kapitel soll weniger eine ausführliche 
Beschreibung sein, sondern vielmehr ein 
paar Denkansätze für die Zeitreihenvor¬ 
hersage nennen, insofern werde ich mich 
mit formalen Definitionen wieder zurück¬ 
halten. 


B.l Über Zeitreihen 

Eine Zeitreihe ist eine Reihe von Wer¬ 
ten, welche in der Zeit diskretisiert ist. 
Beispielsweise könnten täglich gemessene 
Temperaturwerte oder andere Wetterda¬ 
ten eines Ortes eine Zeitreihe darstellen - 
auch Aktienkurswerte stellen eine Zeitrei¬ 
he dar. Zeitreihen sind häufig zeitlich äqui¬ 
distant gemessen, und bei vielen Zeitrei- 
hen ist sehr von Interesse, wie denn die 
Zukunft ihrer Werte aussieht - nennen wir 
als Beispiel nur die tägliche Wettervorher¬ 
sage. 

Zeitreihen können auch in einem bestimm¬ 
ten zeitlichen Abstand Af abgetastete 
Werte einer eigentlich kontinuierlichen 
Funktion sein (Abb. |B.l auf der folgenden 
Seite I. 

Wenn wir eine Zeitreihe Vorhersagen möch¬ 
ten, so suchen wir ein Neuronales Netz, 
was vergangene Werte der Zeitreihe auf zu¬ 
künftige abbildet - kennen wir eine Zeitrei¬ 
he also auf längeren Abschnitten, so sind 


Zeitliche 
Reihe von 
Werten 

At 
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Abbildung B.l: Eine Funktion x der Zeit wird 
zu diskreten Zeitpunkten abgetastet (zeitdiskre- 
tisiert), wir erhalten also eine Zeitreihe. Die ab¬ 
getasteten Werte werden in ein Neuronales Netz 
eingegeben (hier im Beispiel ein SLP), welches 
lernen soll, Werte der Zeitreihe vorherzusagen, 
welche in der Zukunft liegen. 


uns genug Trainingsbeispiele gegeben. Die¬ 
se sind natürlich keine Beispiele der vorher¬ 
zusagenden Zukunft, aber man versucht 
mit ihrer Hilfe, die Vergangenheit zu ver¬ 
allgemeinern und zu extrapolieren. 

Bevor wir uns allerdings an die Vorhersage 
einer Zeitreihe machen, müssen wir uns ein 
paar Gedanken zu Fragen über die betrach¬ 
tete Zeitreihe machen - bzw. sicherstellen, 
dass unsere Zeitreihe einige Bedingungen 
erfüllt. 

1. Haben wir überhaupt Anhaltspunkte 
dafür, dass die Zukunft der Zeitreihe 
auf irgendeine Weise von ihrer Vergan¬ 
genheit abhängt? Steckt in der Ver¬ 
gangenheit der Zeitreihe also Informa¬ 
tion über ihre Zukunft? 

2. Haben wir genug vergangene Werte 
der Zeitreihe als Trainingsmuster? 

3. Im Falle einer Vorhersage einer konti¬ 
nuierlichen Funktion: Wie müssen wir 
Af sinnvollerweise wählen? 

Wir wollen diese Fragen nun etwas näher 
beleuchten. 

Wieviel Information über die Zukuft ist 
in der Vergangenheit einer Zeitreihe vor¬ 
handen? Dies ist mit Abstand die wich¬ 
tigste Frage, die wir für jede Zeitreihe, die 
wir in die Zukunft abbilden wollen, beant¬ 
worten müssen. Sind die zukünftigen Wer¬ 
te einer Zeitreihe beispielsweise überhaupt 
nicht von den vergangenen abhängig, so ist 
überhaupt keine Zeitreihenvorhersage aus 
ihnen möglich. 

Wir gehen in diesem Kapitel von Systemen 
aus, deren Zustände auch auf ihre Zukunft 
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B.2 One Step Ahead Prediction 


schließen lassen - deterministische Syste- B.2 One Step Ahead 
me. Dies bringt uns erst einmal zu der Fra- Prediction 

ge, was ein Systemzustand ist. 


Ein Systemzustand beschreibt ein System 
für einen bestimmten Zeitpunkt vollstän¬ 
dig. Die Zukunft eines deterministischen 
Systems wäre durch die vollständige Be¬ 
schreibung seines aktuellen Zustands also 
eindeutig bestimmt. 

Das Problem in der Realität ist, dass ein 
solcher Zustandsbegriff alle Dinge umfasst, 
die auf irgendeine Weise Einfluss auf unser 
System nehmen. 

Im Falle unserer Wettervorhersage für 
einen Ort könnten wir die Temperatur, 
den Luftdruck und die Wolkendichte als 
den Wetterzustand des Ortes zu einem 
Zeitpunkt t durchaus bestimmen - doch 
der gesamte Zustand würde wesentlich 
mehr umfassen. Hier wären weltweite wet¬ 
tersteuernde Phänomene von Interesse, ge¬ 
nauso wie vielleicht kleine lokale Phänome¬ 
ne, z.B. die Kühlanlage des örtlichen Kraft¬ 
werks. 

Es ist also festzuhalten, dass der System¬ 
zustand für die Vorhersage wünschenswert, 
aber nicht immer zu bekommen ist. Oft 
sind nur Teile des aktuellen Zustands er¬ 
fassbar - wie beim Wetter die verschiede¬ 
nen angesprochenen Wettergrößen. 

Wir können aber diese Schwäche teilweise 
ausgleichen, indem wir nicht nur die beob¬ 
achtbaren Teile eines einzigen (des letzten) 
Zustandes in die Vorhersage mit einfließen 
lassen, sondern mehrere vergangene Zeit¬ 
punkte betrachten. Hieraus wollen wir nun 
unser erstes Vorhersagesystem formen: 


Den Vorhersageversuch für den nächsten 
zukünftigen Wert einer Zeitreihe aus ver¬ 
gangenen Werten nennen wir One Step 
Ahead Prediction (Abb. B.2 auf der fol¬ 
genden Seite). 

Ein solches Prediktorsystem erhält also 
die letzten n observierten Zustandsteile 
des Systems als Eingabe und gibt die Vor¬ 
hersage für den kommenden Zustand (oder 
Zustandsteil) aus. Die Idee, dass wir einen 
Zustandsraum mit Zuständen haben, die 
wir Vorhersagen können, nennt man State 
Space Forecasting. 

Ziel des Prediktors ist es, eine Funktion 

f{xt-n+l, ■ ■ ■ ,x t -i,x t ) = x t +i (B.l) 

zu realisieren, welche exakt n vergangene 
Zeitwerte entgegennimmt, um daraus den 
zukünftigen Wert vorherzusagen. Vorher¬ 
gesagte Werte wollen wir mit einer Tilde 
(z.B. x) überschreiben, um sie von den tat¬ 
sächlichen zukünftigen Werten zu unter¬ 
scheiden. 

Der intuitivste und einfachste Ansatz wä¬ 
re, eine Linearkombination 

%i- (-1 — + ■ • • + Q’j'Ki—j 

(B.2) 

zu suchen, welche unsere Bedingungen nä¬ 
herungsweise erfüllt. 

Eine solche Konstruktion nennt man di¬ 
gitales Filter. Hier nutzt man aus, dass 
wir bei Zeitreihen in der Regel über sehr 


B.2 auf der fol- 


Nächsten 

Wert 

Vorhersagen 


X 
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Abbildung B.2: Darstellung der One Step Ahead Prediction - aus einer Reihe vergangener Werte 
versucht man, den zukünftigen Wert zu errechnen. Das vorhersagende Element (in unserem Fall ein 
Neuronales Netz) nennt man Prediktor. 


viele vergangene Werte verfügen, so dass 
wir eine Reihe von Gleichungen aufstellen 
können 1 : 

xt = a 0 x t -i + ... + djXt_ i_( n _i) 

Xt -1 = O.QXt-2 + ■ • • + CljXt_2-(n-l) 


Daten aus der Vergangenheit trainiert 
wurde (Der Versuchsaufbau würde der 
Abb. B.l auf Seite 192 entsprechen). In 
der Tat liefert ein Training mit der Delta¬ 
regel hier Ergebnisse, die der analytischen 
Lösung sehr nahe liegen. 


: (B .3) 

Xt—n — O'OXt—n T • • • T Q J jXt—n—(n— 1) 

Man könnte also n Gleichungen für n vie¬ 
le unbekannte Koeffizienten finden und so 
auflösen (soweit möglich). Oder noch ein 
besserer Ansatz: Wir könnten m > n Glei¬ 
chungen für n Unbekannte so verwenden, 
dass die Summe der Fehlerquadrate der 
Vorhersagen, die uns ja bereits bekannt 
sind, minimiert wird - genannt Moving- 
Average- Verfahren. 

Diese lineare Struktur entspricht aber ein¬ 
fach einem Singlelayerperceptron mit li¬ 
nearer Aktivierungsfunktion, welches mit 

1 Ohne diesen Umstand weiter zu betrachten möch¬ 
te ich anmerken, dass die Vorhersage oft einfacher 
wird, je mehr vergangene Werte der Zeitreihe zur 
Verfügung stehen. Ich bitte den Leser, hierzu et¬ 
was zum Nyquist-Shannon-Abtasttheorem zu re¬ 
cherchieren. 


Auch wenn man damit oft schon sehr 
weit kommt, haben wir gesehen, dass man 
mit einem Singlelayerperceptron viele Pro¬ 
blemstellungen nicht ab decken kann. Wei¬ 
tere Schichten mit linearer Aktivierungs¬ 
funktion bringen uns auch nicht weiter, da 
ein Multilayerperceptron mit ausschließ¬ 
lich linearen Aktivierungsfunktionen sich 
auf ein Singlelayerperceptron reduzieren 
lässt. Diese Überlegungen führen uns zum 
nichtlinearen Ansatz. 

Uns steht mit dem Multilayerperceptron 
und nichtlinearen Aktivierungsfunktionen 
ein universeller nichtlinearer Funktionsap- 
proximator zur Verfügung, wir könnten al¬ 
so ein n-|iL|-l-MLP für n viele Eingaben 
aus der Vergangenheit verwenden. Auch 
ein RBF-Netz wäre verwendbar, wir erin¬ 
nern uns aber daran, dass die Zahl n hier 
im kleinen Rahmen bleiben muss, da hohe 
Eingabedimensionen in RBF-Netzen sehr 
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B.4 Weitere Optimierungsansätze für die Prediction 


aufwändig zu realisieren sind. Wenn man 
also viele Werte aus der Vergangenheit mit 
einbeziehen will, ist ein Multilayerpercep- 
tron deutlich weniger rechenaufwändig. 


B.3 Two Step Ahead 
Prediction 


zwei Zeitschritte in die Zukunft zu blicken, 
was wir Direct Two Step Ahead Pre¬ 


diction (Abb. B.4 auf der folgenden Sei 


te) nennen. Die Direct Two Step Ahead 


Prediction ist offensichtlich technisch iden¬ 
tisch mit der One Step Ahead Prediction, 
der Unterschied liegt nur im Training. 


Was für Lösungsansätze können wir denn 
finden, wenn wir weiter in die Zukunft se¬ 
hen wollen? 


B.4 Weitere 

Optimierungsansätze für 
die Prediction 


Spätere 

Werte 

Vorhersagen 


B.3.1 Rekursive Two Step Ahead 
Prediction 

Um beispielsweise zwei Zeitschritte in die 
Zukunft zu schauen, könnten wir einfach 
zwei One Step Ahead Predictions hinter¬ 
einander ausführen (Abb. B.3 auf der fol- 
, also eine rekursive Two 
Prediction ausführen. Lei¬ 
der ist aber der von einer One Step Ahead 
Prediction ermittelte Wert in aller Regel 
nicht exakt, so dass sich die Fehler schnell 
aufschaukeln können und, je öfter man die 
Predictions hintereinander ausführt, das 
Ergebnis immer ungenauer wird. 


Die Möglichkeit, in der Zukunft weiter 
entfernt liegende Werte vorherzusagen, ist 
nicht nur wichtig, weil wir die Zukunft wei¬ 
ter Vorhersagen zu versuchen - es kann 
auch periodische Zeitreihen geben, wo es 
anders schwer möglich ist: Wenn eine Vor¬ 
lesung jeden Dienstag um 09:00 Uhr statt¬ 
findet, nützt uns die Information, wieviele 
Personen Montags im Hörsaal saßen, für 
die Prädiktion der Vorlesungsteilnehmer¬ 
zahl sehr wenig. Gleiches gilt z.B. für peri¬ 
odisch auftretende Pendlerstaus. 

B.4.1 Veränderung zeitlicher 
Parameter 


B.3 auf der fol- 
rekursive Two 


genden Seite 


Step Ahead 


Direkte 

Vorhersage 

besser 


B.3.2 Direkte Two Step Ahead 
Prediction 

Wir ahnen schon, dass es eine bessere Va¬ 
riante gibt: So wie wir das System auf die 
Vorhersage des nächsten Wertes trainieren 
können, können wir das natürlich auch mit 
dem übernächsten Wert - wir trainieren al¬ 
so z.B. ein Neuronales Netz direkt darauf, 


Es kann also sehr sinnvoll sein, in der 
Zeitreihe sowohl in Vergangenheit als auch 
in Zukunft bewusst Lücken zu lassen, also 
den Parameter At einzuführen, der angibt, 
der wievielte zurückliegende Wert jeweils 
zur Prädiktion genutzt wird. Wir bleiben 
also technisch gesehen bei einer One Step 
Ahead Prediction, und strecken nur den 
Eingaberaum oder aber wir trainieren die 


Eingabe¬ 

zeitraum 

strecken 
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Abbildung B.3: Darstellung der Two Step Ahead Prediction - aus einer Reihe vergangener Wer¬ 
te versucht man, durch einen zweiten Prediktor unter Einbeziehung eines bereits vorhergesagten 
Wertes den zweiten zukünftigen Wert vorherzusagen. 



Abbildung B.4: Darstellung der Direct Two Step Ahead Prediction. Hier wird direkt der zweite 
Zeitschritt vorhergesagt, und der erste übersprungen. Sie unterscheidet sich technisch nicht von 
einer One Step Ahead Prediction. 
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B.5 Bemerkungen zur Vorhersage von Aktienkursen 


Informationen 

außerhalb 

Zeitreihe 

nutzen 


Vorhersage weiter entfernt liegender Wer¬ 
te. 

Auch Kombinationen verschiedener A t 
sind möglich: Im Falle der Stauvorhersa¬ 
ge für einen Montag könnten zusätzlich 
zu den letzten Montagen die letzten paar 
Tage als Dateninput genutzt werden. Wir 
nutzen so also die letzten Werte mehrerer 
Perioden, in diesem Fall einer wöchentli¬ 
chen und einer täglichen. Wir könnten in 
Form der Ferienanfänge auch noch eine 
jährliche hinzunehmen (jeder von uns hat 
bestimmt schon einmal viel Zeit auf der 
Autobahn verbracht, weil er den Ferienan¬ 
fang vergessen hatte). 


B.4.2 Heterogene Prediction 


Eine weitere Variante der Vorhersage wä¬ 
re, aus mehreren Zeitreihen etwas über die 
Zukunft einer einzigen Zeitreihe vorherzu¬ 
sagen, falls man annimmt, dass die zusätz¬ 
liche Zeitreihe etwas mit der Zukunft der 
ersten zu tun hat (heterogene One Step 
Ahead Prediction , Abb. |B.5 auf der fol- 
genden Seite). 


Will man zwei Ausgaben zu zwei Zeitrei¬ 
hen, welche etwas miteinander zu tun ha¬ 
ben, Vorhersagen, kann man natürlich zwei 
parallele One Step Ahead Predictions aus¬ 
führen (dies wird analytisch oft gemacht, 
weil die Gleichungen sonst irgendwann 
sehr unübersichtlich werden) - oder man 
hängt im Falle der Neuronalen Netze ein¬ 
fach ein Outputneuron mehr an und nutzt 
Wissen von beiden Zeitreihen für beide 
Ausgaben (Abb. B.6 auf der folgenden Sei¬ 


te). 


Mehr und allgemeineres Material zum 
Thema „Zeitreihen“ findet sich unter 
|WG94\ 

B.5 Bemerkungen zur 
Vorhersage von 
Aktienkursen 


Viele Personen schauen sich die Verände¬ 
rung eines Aktienkurses in der Vergangen¬ 
heit an und versuchen daraus auf die Zu¬ 
kunft zu schließen, um Profit daraus zu zie¬ 
hen. Aktienkurse sind aus sich selbst her¬ 
aus unstetig und daher prinzipiell schon 
einmal schwierige Funktionen. Weiterhin 
kann man die Funktionen nur zu dis¬ 
kreten Werten abrufen, oft beispielsweise 
im Tagesrhytmus (wenn man Glück hat, 
noch mit Maximal- und Minimalwerten 
pro Tag), wo natürlich die Tagesschwan¬ 
kungen wieder wegfallen. Dies macht die 
Sache auch nicht einfacher. 

Es gibt nun Chartisten , also Personen, 
welche sich viele Diagramme anschauen 
und mit viel Hintergrundwissen und oft 
Jahrzehnten an Erfahrung entscheiden, ob 
Wertpapiere gekauft werden sollten oder 
nicht (und damit auch oft Erfolg ha¬ 
ben). 

Neben den Wertpapierkursen sind auch 
Wechselkurse von Währungen sehr inter¬ 
essant vorherzusagen: Wenn man 100 Eu¬ 
ro in Dollar umtauscht, diese in Pfund 
und diese wieder in Euro, kann passieren, 
dass man zum Schluss 110 Euro heraus¬ 
bekommt. Wenn man das allerdings her¬ 
ausgefunden hat, würde man das öfter ma- 
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Abbildung B.5: Darstellung der Heterogenen One Step Ahead Prediction. Vorhersage einer Zeitrei¬ 
he unter Betrachtung einer weiteren. 


xt -3 


xt -2 


xt -1 


xt 


xt +1 



Abbildung B.6: Heterogene One Step Ahead Prediction von zwei Zeitreihen gleichzeitig. 
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B.5 Bemerkungen zur Vorhersage von Aktienkursen 


chen und somit selbst die Wechselkurse in 
einen Zustand verändern, in dem ein sol¬ 
cher vermehrender Kreislauf nicht mehr 
möglich ist (wäre das nicht so, könnte 
man ja Geld hersteilen, indem man sozusa¬ 
gen ein finanzielles Perpetuum Mobile er¬ 
schafft). 

Gute Wertpapier- und Wechselkursbroker 
heben oder senken den Daumen an der 
Börse - und geben damit an, ob eine Ak¬ 
tie oder ein Wechselkurs ihrer Meinung 
nach steigen wird. Sie geben also mathe¬ 
matisch ausgedrückt das erste Bit (Vorzei¬ 
chen) der ersten Ableitung des Wechsel¬ 
kurses an. Exzellente Weltklasse-Broker er¬ 
reichen damit Erfolgsraten von etwas über 
70%. 

In Großbritannien ist es mit einer heteroge¬ 
nen One-Step-Ahead-Prediction gelungen, 
diese Vorhersagerichtigkeit auf 76% zu stei¬ 
gern: Zusätzlich zu der Zeitreihe des Wer¬ 
tes wurden noch Indikatoren miteinbezo- 
gen, wie z.B. der Ölpreis in Rotterdam 
oder die US-Staatsverschuldung. 

Das einmal zur Größenordnung der Rich¬ 
tigkeit von Börsenschätzungen - wir reden 
ja immer noch über das Erste Bit der Ers¬ 
ten Ableitung! Damit ist uns auch noch 
keine Information gegeben, wie stark der 
erwartete Anstieg oder Abfall ist, und so 
auch nicht, ob sich der ganze Aufwand 
lohnt: Vielleicht macht uns eine einzige 
falsche Vorhersage den ganzen Gewinn von 
hundert richtigen wieder zunichte. 

Wie verhalten sich also Neuronale Netze 
zur Aktienkursvorhersage? Wir nehmen ja 
ganz intuitiv an, dass die Aktienkurswerte 


der Zukunft eine Funktion der Aktienwer¬ 
te von Zeitpunkten davor sind. 

Genau diese Annahme ist jedoch irrig: Ak¬ 
tienkurse sind keine Funktion ihrer Ver¬ 
gangenheit, sondern eine Funktion ihrer 
mutmaßlichen Zukunft. Wir kaufen keine 
Aktien, weil sie in den letzten Tagen sehr 
gestiegen sind - sondern weil wir den¬ 
ken, dass sie morgen höher steigen werden. 
Kaufen viele Personen aus diesem Einfall 
heraus eine Aktie, so treiben sie ihren Kurs 
in die Höhe, und haben also mit ihrer Mut¬ 
maßung recht - es entsteht eine Seif Ful- 
filling Prophecy, ein in der Wirtschaft 
lange bekanntes Phänomen. 

Gleiches gilt für den umgekehrten Fall: 
Wir verkaufen Aktien, weil wir denken, 
dass sich morgen die Kurse nach unten be¬ 
wegen werden - was den Kurs am nächten 
Tag nach unten drückt und am übernächs¬ 
ten in aller Regel noch viel mehr. 

Immer wieder taucht Software auf, die mit 
wissenschaftlichen Schlagworten wie z.B. 
Neuronalen Netzen behauptet, Aktienkur¬ 
se Vorhersagen zu können. Kaufen Sie die¬ 
se nicht - zusätzlich zu den oben genann¬ 
ten wissenschaftlichen Ausschlusskriterien 
aus einem einfachen Grund: Wenn diese 
Tools so toll funktionieren - warum ver¬ 
kauft die Herstellerfirma sie dann? Nütz¬ 
liches Wirtschaftswissen wird in aller Re¬ 
gel geheimgehalten, und wenn wir einen 
Weg wüssten, garantiert mit Aktien reich 
zu werden, würden wir doch durch diesen 
Weg Millionen verdienen, und nicht in 30- 
Euro-Häppchen durch den Verkauf dessel¬ 
ben, oder? 


Aktienkurs 
Funktion der 
mutmaßlichen 
Zukunft! 
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Anhang C 

Exkurs: Reinforcement Learning 


Was, wenn keine Trainingsbeispiele existieren, man aber trotzdem beurteilen 
kann, wie gut man gelernt hat, ein Problem zu lösen? Betrachten wir ein 
Lernparadigma, welches zwischen überwachtem und unüberwachtem Lernen 

anzusiedeln ist. 


Keine 

Beispiele, 

aber 

Feedback 


Wir wollen nun einen eher exotischen An¬ 
satz des Lernens kennenlernen - einfach, 
um einmal von den üblichen Verfahren 
wegzukommen. Wir kennen Lernverfahren, 
in denen wir einem Netz genau sagen, 
was es tun soll, also beispielhafte Ausgabe¬ 
werte bereitstellen. Wir kennen ebenfalls 
Lernverfahren, wie bei den Seif Organizing 
Maps, in denen ausschließlich Eingabewer- 
te gegeben werden. 

Wir wollen nun eine Art Mittelding er¬ 
forschen: Das Lernparadigma des bestär¬ 
kenden Lernens - Reinforcement Learning 
nach Sutton und Barto |SB98’. 

Reinforcement Learning an sich ist kein 
Neuronales Netz, sondern nur eines der 
drei Lernparadigmen, die wir bereits in 
Kapitel [4] genannt haben. Manche Quellen 
zählen es zu den überwachten Lernverfah¬ 
ren, da man ein Feedback gibt - durch 
die sehr rudimentäre Art des Feedbacks 
ist es aber begründet von den überwach¬ 
ten Lernverfahren abzugrenzen, mal ganz 


abgesehen von der Tatsache, dass es keine 
Trainingsbeispiele gibt. 

Während allgemein bekannt ist, dass Ver¬ 
fahren wie Backpropagation im Gehirn 
selbst nicht funktionieren können, wird Re- 
inforcement Learning allgemein als biolo¬ 
gisch wesentlich motivierter angesehen. 

Der Ausdruck Reinforcement Learning 
(Bestärkendes Lernen) kommt aus den 
Kognitionswissenschaften und der Psycho¬ 
logie und beschreibt das in der Natur über¬ 
all vorhandene Lernsystem durch Zucker¬ 
brot und Peitsche, durch gute Erfahrun¬ 
gen und schlechte Erfahrungen, Beloh¬ 
nung und Bestrafung. Es fehlt aber eine 
Lernhilfe, die uns genau erklärt, was wir 
zu tun haben: Wir erhalten lediglich ein 
Gesamtergebnis für einen Vorgang (Haben 
wir das Schachspiel gewonnen oder nicht? 
Und wie sicher haben wir es gewonnen?), 
aber keine Ergebnisse für die Zwischen¬ 
schritte. 
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Fahren wir beispielsweise mit unserem 
Fahrrad mit abgewetzten Reifen und einer 
Geschwindigkeit von exakt 21,5^ in ei¬ 
ner Kurve über Sand mit einer Korngröße 
von durchschnittlich 0.1mm, so wird uns 
niemand genau sagen können, auf welchen 
Winkel wir den Lenker einzustellen haben, 
oder noch schlimmer, wie stark die Muskel¬ 
kontraktionen von unseren vielen Muskel¬ 
teilen in Arm oder Bein dafür sein müssen. 
Je nachdem, ob wir das Ende der Kurve 
unbeschadet erreichen, sehen wir uns aber 
sehr schnell mit einer guten oder schlech¬ 
ten Lernerfahrung , einem Feedback bzw. 
Reward konfrontiert. Der Reward ist also 
sehr einfach gehalten - aber dafür auch 
wesentlich einfacher verfügbar. Wenn wir 
nun oft genug verschiedene Geschwindig¬ 
keiten und Kurvenwinkel ausgetestet ha¬ 
ben und einige Rewards erhalten haben, 
werden wir in etwa ein Gefühl dafür be¬ 
kommen, was funktioniert und was nicht: 
Genau dieses Gefühl zu erhalten, ist das 
Ziel des Reinforcement Learnings. 

Ein weiteres Beispiel für die Quasi- 
Unmöglichkeit, eine Art Kosten- oder Nut¬ 
zenfunktion zu erhalten, ist ein Tennis¬ 
spieler, der durch komplizierte Bewegun¬ 
gen und ballistische Bahnen im dreidimen¬ 
sionalen Raum unter Einberechnung von 
Windrichtung, Wichtigkeit des Turniers, 
privaten Faktoren und vielem anderen ver¬ 
sucht, seinen sportlichen Ruhm auf lange 
Zeit zu maximieren. 

Um es gleich vorweg zu sagen: Da wir nur 
wenig Feedback erhalten, heißt Reinforce¬ 
ment Learning oft ausprobieren - und da¬ 
mit ist es recht langsam. 


C.l Systemaufbau 

Wir wollen nun verschiedene Größen und 
Bestandteile des Systems kurz anspre¬ 
chen, und sie in den nachfolgenden Ab¬ 
schnitten genauer definieren. Reinforce- 
rnent Learning repräsentiert grob formu¬ 
liert die gegenseitige Interaktion zwischen 
einem Agenten und einem Umweltsystem 
(Abb. ). 

Der Agent soll nun irgendeine Aufgabe lö¬ 
sen, er könnte z.B. ein autonomer Roboter 
sein, der Hindernisvermeidung betreiben 
soll. Der Agent führt in der Umwelt nun 
Aktionen aus und bekommt von der Um¬ 
welt dafür ein Feedback zurück, das wir im 
folgenden Reward nennen wollen. Dieser 
Kreis aus Aktion und Reward ist charak¬ 
teristisch für Reinforcement Learning. Der 
Agent beeinflusst das System, das System 
gibt einen Reward und verändert sich. 

Der Reward ist ein reeller oder diskreter 
Skalar, welcher uns wie oben beschrieben 
angibt, wie gut wir unser Ziel erreichen, 
jedoch keine Anleitung vermittelt, wie wir 
es erreichen können. Ziel ist immer, lang¬ 
fristig eine möglichst hohe Summe von Re¬ 
wards zu erwirtschaften. 

C.l.l Die Gridworld 

Als Lernbeispiel für Reinforcement Lear¬ 
ning möchte ich gerne die sogenannte 
Gridworld verwenden. Wir werden sehen, 
dass sie sehr einfach aufgebaut und durch¬ 
schaubar ist und daher eigentlich gar kein 
Reinforcement Learning notwendig ist - 
trotzdem eignet sie sich sehr gut, die Vor- 



Einfache 

Beispiel- 


Welt 
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gehensweisen des Reinforcement Learning 
an ihr darzustellen. Definieren wir nun die 
einzelnen Bestandteile des Reinforcement 
Systems beispielhaft durch die Gridworld. 
Wir werden jedes dieser Bestandteile spä¬ 
ter noch genauer beleuchten. 


Umwelt: Die Gridworld (Abb. C.l) ist ei¬ 
ne einfache, diskrete Welt in zwei Di¬ 
mensionen, die wir im Folgenden als 
Umweltsystem verwenden wollen. 


Agent: Als Agent nehmen wir einen ein¬ 
fachen Roboter, der sich in unserer 
Gridworld befindet. 


Zustandsraum: Wie wir sehen, hat unse¬ 
re Gridworld 5x7 Felder, von denen 
6 nicht begehbar sind. Unser Agent 
kann also 29 Positionen in der Grid¬ 
world besetzen. Diese Positionen neh¬ 
men wir für den Agenten als Zustän¬ 
de. 


Aktionsraum: Fehlen noch die Aktionen. 
Definieren wir einfach, der Roboter 
könnte jeweils ein Feld nach oben, un¬ 
ten, rechts oder links gehen (solange 
dort kein Hindernis oder der Rand un¬ 
serer Gridworld ist). 

Aufgabe: Die Aufgabe unseres Agenten 
ist es, aus der Gridworld hinauszufin¬ 
den. Der Ausgang befindet sich rechts 
von dem hell ausgefüllten Feld. 

Nichtdeterminismus: Die beiden Hinder¬ 
nisse können durch eine „Tür“ verbun¬ 
den werden. Wenn die Tür geschlos¬ 
sen ist (unterer Teil der Abbildung), 



Abbildung C.l: Eine graphische Darstellung un¬ 
serer Gridworld. Dunkel gefüllte Zellen sind Hin¬ 
dernisse und daher nicht begehbar. Rechts von 
dem hell gefüllten Feld ist der Ausgang. Das Sym¬ 
bol x markiert die Startposition unseres Agen¬ 
ten. Im oberen Teil der Abbildung ist die Tür 
offen, im unteren geschlossen. 


ist das entsprechende Feld nicht be¬ 
gehbar. Die Tür kann sich nicht wäh¬ 
rend eines Durchlaufs verändern, son¬ 
dern nur zwischen den Durchläufen. 

Wir haben nun eine kleine Welt geschaffen, 
die uns über die nachfolgenden Lernstrate¬ 
gien begleiten und sie uns anschaulich ma¬ 
chen wird. 


C.l.2 Agent und Umwelt 

Unser Ziel ist nun, dass der Agent lernt , 
was mit Hilfe des Rewards geschieht. Es 
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Agent 
agiert in 
Umwelt 


Agent 


Reward / neue Situation 


Umwelt 


Abbildung C.2: Der Agent führt Aktionen in 
seiner Umwelt durch, welche ihm einen Reward 
gibt. 


wird also über, von und mit einem dy¬ 
namischen System, der Umwelt , gelernt, 
um ein Ziel zu erreichen. Doch was genau 
heißt eigentlich Lernen in diesem Zusam¬ 
menhang? 

Der Agent soll eine Abbildung von Situa¬ 
tionen auf Aktionen (genannt Policy ) ler¬ 
nen, also lernen, was er in welcher Situati¬ 
on tun soll, um ein ganz bestimmtes (gege¬ 
benes) Ziel zu erreichen. Das Ziel wird dem 
Agenten einfach aufgezeigt, indem er für 
das Erreichen eine Belohnung bekommt. 

Die Belohnung ist nicht zu verwechseln 
mit dem Reward - vielleicht ist es auf dem 
Weg des Agenten zur Problemlösung auch 
sinnvoll, zwischendurch hin und wieder et¬ 
was weniger Belohnung oder gar Strafe zu 
bekommen, wenn das langfristige Ergeb¬ 
nis dafür maximal ist (ähnlich, wie wenn 
ein Anleger ein Tief eines Aktienkurses ein¬ 
fach aussitzt oder ein Bauernopfer beim 
Schach). Ist der Agent also auf einem gu¬ 
ten Weg zum Ziel, gibt es positiven Re¬ 
ward, wenn nicht, gibt es keinen oder sogar 


negativen Reward (Strafe). Die Belohnung 
ist sozusagen die schlussendliche Summe 
aller Rewards - wir wollen sie auch Return 
nennen. 

Nachdem wir nun die Grundbestandtei¬ 
le umgangssprachlich benannt haben, wol¬ 
len wir in den folgenden Abschnitten 
genauer betrachten, aus was wir unser 
Reinforcement-Learning-System abstrakt 
zusammensetzen können. 

In der Gridworld: Der Agent ist in der 
Gridworld ein einfacher Roboter, der aus 
der Gridworld herausfinden soll. Umwelt 
ist die Gridworld selbst, eine diskrete Git¬ 
terwelt. 

Definition C.l (Agent). Der Agent bei 
Reinforcement Learning kann formal be¬ 
schrieben werden als eine Abbildung vom 
Situationsraum S in den Aktionsraum 
A(s t ). Was Situationen st sind, wird spä¬ 
ter noch definiert und soll nur aussagen, 
dass der Aktionsraum von der aktuellen 
Situation abhängig ist. 

Agent: S —> A(st ) (C.l) 

Definition C.2 (Umwelt). Die Umwelt 
repräsentiert eine stochastische Abbildung 
von einer Aktion A unter der aktuellen Si¬ 
tuation st auf einen Reward ry und eine 
neue Situation st+i. 

Umwelt: S x A — i P(S x ry) (C.2) 

C.l.3 Zustände, Situationen und 
Aktionen 

Wie wir schon angesprochen haben, kann 
ein Agent sich innerhalb seiner Umwelt 


204 


D. Kriesei - Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 




dkriesel.com 


C.l Systemaufbau 


Wichtig! 


in verschiedenen Zuständen befinden: Im 
Falle der Gridworld zum Beispiel an ver¬ 
schiedenen Orten (wir erhalten hier einen 
zweidimensionalen Zustandsvektor). 

Es ist für den Agenten aber nicht immer 
möglich, alle Informationen seines aktuel¬ 
len Zustandes zu erfassen, weswegen wir 
den Begriff der Situation einführen müs¬ 
sen. Eine Situation ist ein Zustand aus 
Agentensicht , also nur eine mehr oder we¬ 
niger gute Approximation eines Zustan¬ 
des. 

Situationen lassen es daher nicht im 
Allgemeinen zu, Folgesituationen eindeu¬ 
tig „vorherzusagen“ - selbst bei einem voll¬ 
ständig deterministischen System haben 
wir das vielleicht nicht gegeben. Wenn wir 
alle Zustände und die Übergänge dazwi¬ 
schen exakt kennen würden (also das ge¬ 
samte System), wäre eine optimale Pla¬ 
nung möglich und auch eine optimale Poli- 
cy einfach findbar - (Methoden liefert z.B. 
die dynamische Programmierung). 

Wir wissen nun, dass das Reinforcement 
Learning eine Interaktion zwischen Agent 
und System mit Aktionen at und Situa¬ 
tionen st ist. Der Agent kann nun nicht 
selbst feststellen, ob die aktuelle Situation 
gut oder schlecht ist: Genau dies ist der 
Grund, warum er wie eingangs bereits be¬ 
schrieben von der Umwelt einen Reward 
erhält. 

In der Gridworld: Zustände sind die Or¬ 
te, an denen der Agent sich befinden kann. 
Situationen kommen den Zuständen in der 
Gridworld vereinfachend gleich. Mögliche 
Aktionen sind nach Norden, Süden, Osten 
oder Westen zu gehen. 


Situation und Aktion können vektoriell 
sein, der Reward jedoch ist immer ein Ska¬ 
lar (im Extremfall sogar nur ein Binär¬ 
wert), da das Ziel von Reinforcement Lear¬ 
ning ist, mit sehr wenig Feedback auszu¬ 
kommen - ein komplizierter vektorieller 
Reward käme ja einem richtigen Teaching 
Input gleich. 

Im Übrigen soll ja eine Kostenfunktion mi¬ 
nimiert werden, was aber mit einem vek¬ 
toriellen Reward so nicht möglich wäre, 
da wir keine intuitiven Ordnungsrelatio¬ 
nen im Mehrdimensionalen besitzen - also 
nicht direkt wissen, was jetzt besser oder 
schlechter ist. 

Definition C.3 (Zustand). In einem Zu¬ 
stand befindet sich der Agent innerhalb sei¬ 
ner Umwelt. Zustände enthalten jede Infor¬ 
mation über den Agent im Umweltsystem. 
Es ist also theoretisch möglich, aus diesem 
gottähnlichen Zustandswissen einen Folge¬ 
zustand auf eine ausgeführte Aktion in ei¬ 
nem deterministischen System eindeutig 
vorherzusagen. 

Definition C.4 (Situation). Situationen 
st (hier zum Zeitpunkt t) aus einem Si- 
tuationsraum S sind das eingeschränkte, 
approximative Wissen des Agenten über 
seinen Zustand. Die Approximation (von 
der der Agent nicht einmal wissen kann, 
wie gut sie ist) macht eindeutige Vorhersa¬ 
gen unmöglich. 

Definition C.5 (Aktion). Aktionen at 
können vom Agenten ausgeführt werden 
(wobei es sein kann, dass je nach Situation 
ein anderer Aktionsraum A(S) besteht) 
und bewirken Zustandsübergänge und da- 


st 

S 


at 


A(S ) 
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mit eine neue Situation aus Sicht des Agen¬ 
ten. 

C.1.4 Reward und Return 

Wie im wirklichen Leben ist unser Ziel, ei¬ 
ne möglichst hohe Belohnung zu erhalten, 
also die Summe der erwarteten Rewards 
r, genannt Return R, langfristig zu ma¬ 
ximieren. Bei endlich vielen Zeitschriften 1 
kann man die Rewards einfach aufsummie¬ 
ren: 


rt +1 + r t+ 2 + ... 

OO 

(C.3) 

51 n+x 

X=1 

(C.4) 


Der Return wird hierbei natürlich nur 
abgeschätzt (Würden wir alle Rewards 
und damit den Return komplett kennen, 
brauchten wir ja nicht mehr lernen). 

Definition C.6 (Reward). Ein Reward 
rt ist eine skalare, reelle oder diskrete 
(manchmal sogar nur binäre) Belohnungs¬ 
oder Bestrafungsgröße, welche dem Agen¬ 
ten vom Umweltsystem als Reaktion auf 
eine Aktion gegeben wird. 

Definition C.7 (Return). Der Return 
Rt ist die Aufkumulierung aller erhaltenen 
Rewards bis zum Zeitpunkt t. 

C.1.4.1 Umgang mit großen 
Zeiträumen 

Nicht alle Problemstellungen haben aber 
ein explizites Ziel und damit eine endliche 

1 Soviel sind in der Praxis ja nur möglich, auch wenn 
die Formeln prinzipiell mit unendlichen Summen 
arbeiten 


Summe (unser Agent kann zum Beispiel 
ein Roboter sein, der die Aufgabe hat, ein¬ 
fach immer weiter herumzufahren und Hin¬ 
dernissen auszuweichen). 

Um im Falle einer unendlichen Reihe von 
Reward-Abschätzungen keine divergieren¬ 
de Summe zu erhalten, wird ein abschwä¬ 
chender Faktor 0 < 7 < 1 verwendet, 
der den Einfluss ferner erwarteter Rewards 
abschwächt: Das ist nicht nur dann sinn¬ 
voll, wenn kein Ziel an sich existiert, son¬ 
dern auch, wenn das Ziel sehr weit entfernt 
ist: 

R t = r t+ 1 + 7 1 r t+2 + 7 2 U +3 + ... (C.5) 

OO 

= 'f~ lr t+x (C-6) 

X=1 

Je weiter die Belohnung weg ist, umso we¬ 
niger Anteil hat sie also an den Entschei¬ 
dungen des Agenten. 

Eine andere Möglichkeit, die Return- 
Summe zu handhaben, wäre ein begrenz¬ 
ter Zeithorizont r, so dass nur r viele 
folgende Rewards 77+1,.. ., rt+ T betrachtet 
werden: 

R t = r t+ 1 + . .. + 7 T ~ 1 r t+r (C.7) 

T 

= 51 7* - 1 n+* (C- 8 ) 

X=1 

Wir unterteilen also den Zeitstrahl in Epi¬ 
soden. Üblicherweise wird eine der beiden 
Methoden zur Begrenzung der Summe ver¬ 
wendet, wenn nicht sogar beide gemein¬ 
sam. 

Wir versuchen also wie im täglichen Le¬ 
ben, unsere aktuelle Situation an einen 
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gewünschten Zustand zu approximieren. 
Da nicht zwangsläufig nur der folgende 
erwartete Reward, sondern die erwartete 
Gesamtsumme bestimmt, was der Agent 
tut, können auch Aktionen durchgeführt 
werden, die kurzfristig erst einmal negati¬ 
ven Reward ergeben (z.B. das Bauernopfer 
beim Schach), sich jedoch später auszah¬ 
len. 

C.l.5 Die Policy 

Nachdem wir nun einige Systemelemen¬ 
te des Reinforcement Learnings genau be¬ 
trachtet und formalisiert haben, bleibt 
noch das eigentliche Ziel zu betrachten: 

Der Agent lernt während des Reinforce¬ 
ment Learnings eine Policy 

n : S —»• P(A), 

er justiert also fortlaufend eine Abbildung 
von den Situationen auf die Wahrschein¬ 
lichkeiten P(A), mit denen jede Aktion A 
in jeder Situation S ausgeführt wird. Ei¬ 
ne Policy kann definiert werden als eine 
Strategie, Aktionen auszuwählen, die den 
Reward auf lange Zeit maximiert. 

In der Gridworld: Die Policy ist in der 
Gridworld die Strategie, nach der der 
Agent versucht, aus der Gridworld heraus¬ 
zufinden. 

Definition C.8 (Policy). Die Policy II ist 
eine Abbildung von Situationen auf Wahr¬ 
scheinlichkeiten, jede Aktion aus dem Ak¬ 
tionsraum A auszuführen. Sie ist also for- 
malisierbar als 

II:S^P(A). (C.9) 


Wir unterscheiden hierbei grundsätzlich 
zwischen zwei Paradigmen von Policies: Ei¬ 
ne Open Loop Policy stellt eine offe¬ 
ne Steuerkette dar und bildet aus einer 
Startsituation so eine Sequenz von Aktio¬ 
nen oo,ai,... mit ai / ai(si)\i > 0. Der 
Agent erstellt also zu Beginn einen Plan 
und führt ihn sukzessive bis zum Ende aus, 
ohne die zwischenzeitlichen Situationen zu 
berücksichtigen (daher a* / aj(sj), Aktio¬ 
nen nach ao hängen nicht von den Situa¬ 
tionen ab). 

In der Gridworld: Eine Open Loop Po¬ 
licy würde uns in der Gridworld für ei¬ 
ne Startposition eine exakte Wegbeschrei¬ 
bung zum Ausgang liefern, z.B. von der an¬ 
gegebenen Startposition den Weg (in Him¬ 
melsrichtungsabkürzungen ) ü G G G N. 

Eine Open Loop Policy ist also eine Se¬ 
quenz von Aktionen ohne zwischenzeitli¬ 
ches Feedback. Aus einer Startsituation 
wird eine Sequenz von Aktionen generiert. 
Wenn man das System 100%ig kennt, kann 
man mit einer solchen Open Loop Poli¬ 
cy erfolgreich arbeiten und zu sinnvollen 
Ergebnissen gelangen. Um aber z.B. das 
Schachspiel 100% zu kennen, müssten wir 
alle Spielzüge durchprobieren, was sehr 
aufwändig ist. Wir müssen uns für derarti¬ 
ge Problemstellungen also eine Alternative 
zur Open Loop Policy suchen, die aktuelle 
Situationen in die Handlungsplanung mit- 
einbezieht: 

Eine Closed Loop Policy ist ein ge¬ 
schlossener Regelkreis, gewissermaßen ei¬ 
ne Funktion 

n : Si —>• üi mit üi = ßi(sj). 
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Forschung 

oder 

Sicherheit? 


Hier übt die Umwelt Einfluss auf unsere 
Aktionen aus bzw. der Agent reagiert 
Input der Umwelt, wie schon in Abb. 
dargestellt. Die Closed Loop Policy ist ge¬ 
wissermaßen ein reaktiver Plan, der aktuel¬ 
le Situationen auf auszuführende Aktionen 
abbildet. 

In der Gridworld: Eine Closed Loop Policy 
würde auf die Aktuelle Position eingehen 
und Richtungen nach der Aktion auswäh¬ 
len. Insbesondere wenn dynamisch ein Hin¬ 
dernis erscheint, ist eine solche Policy die 
bessere Wahl. 

Bei der Wahl der auszuführenden Aktio¬ 
nen können wieder zwei grundsätzliche 
Strategien betrachtet werden. 


auf 

[Ü^l 


C. 1.5.1 Exploitation vs. Exploration 

Wie im wirklichen Leben stellt sich wäh¬ 
rend des Reinforcement Learnings oft die 
Frage, ob vorhandenes Wissen stur ausge¬ 
nutzt, oder aber auch neue Wege auspro¬ 
biert werden. Wir wollen zunächst die zwei 
Extrema betrachten: 

Eine Greedy Policy wählt immer den 
Weg des höchsten Rewards, den wir im vor¬ 
aus bestimmen können, also des höchsten 
bekannten Rewards. Diese Policy repräsen¬ 
tiert den Exploitation-Ansatz und ist er¬ 
folgversprechend, wenn man das behandel¬ 
te System bereits kennt. 

Im Gegensatz zum Exploitation-Ansatz 
steht der Exploration-Ansatz, der zum 
Ziel hat, ein System möglichst umfassend 
zu erforschen, so dass auch Wege zum Ziel 
gefunden werden können, welche auf den 


ersten Blick vielleicht nicht erfolgverspre¬ 
chend aussehen, es aber dennoch sind. 

Angenommen, wir suchen einen Weg zum 
Restaurant, so wäre eine auf Nummer si¬ 
cher gehende Policy, von überall den Weg 
zu nehmen, den wir kennen, so unoptimal 
und lang er auch sein mag, und nicht zu 
versuchen, bessere Wege zu erforschen. Ein 
anderer Ansatz wäre, auch hin und wieder 
nach kürzeren Wegen zu forschen, selbst 
auf die Gefahr hin, dass die Forschung 
lange dauert, nichts bringt und wir daher 
zum Schluß doch den ursprünglichen Weg 
nehmen und zu spät ins Restaurant kom¬ 
men. 

In der Realität wird oft eine Kombinati¬ 
on beider Verfahren angewandt: Zum An¬ 
fang eines Lernvorgangs wird mit höhe¬ 
rer Wahrscheinlichkeit geforscht, während 
zum Ende mehr vorhandenes Wissen aus¬ 
genutzt wird. Auch eine statische Wahr¬ 
scheinlichkeitsverteilung ist hier möglich 
und wird oft angewandt. 

In der Gridworld: Für die Wegsuche in der 
Gridworld gilt das Restaurantbeispiel na¬ 
türlich analog. 


C.2 Lernvorgang 


Betrachten wir wieder das tägliche Leben. 
Von einer Situation können wir durch Ak¬ 
tionen in verschiedene Untersituationen 
geraten, von jeder Untersituation wieder 
in Unteruntersituationen. Gewissermaßen 
erhalten wir einen Situationsbaum, wo¬ 
bei man Verknüpfungen unter den Knoten 
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berücksichtigen muss (oft gibt es mehre¬ 
re Wege, wie man zu einer Situation ge¬ 
langen kann - der Baum könnte also tref¬ 
fender als Situationsgraph bezeichnet wer¬ 
den). Blätter des Baums sind Endsituatio¬ 
nen des Systems. Der Exploration-Ansatz 
würde den Baum möglichst genau durch¬ 
suchen und alle Blätter kennenlernen, der 
Exploitation-Ansatz zielsicher zum besten 
bekannten Blatt gehen. 

Analog zum Situationsbaum können wir 
uns auch einen Aktionsbaum aufbauen - 
hier stehen dann in den Knoten die Re- 
wards für die Aktionen. Wir müssen nun 
vom täglichen Leben adaptieren, wie ge¬ 
nau wir lernen. 

C.2.1 Strategien zur Rewardvergabe 

Interessant und von großer Wichtigkeit ist 
die Frage, wofür man einen Reward ver¬ 
gibt und was für einen Reward man ver¬ 
gibt, da das Design des Rewards das Sys¬ 
temverhalten maßgeblich steuert. Wie wir 
oben gesehen haben, gibt es (wieder ana¬ 
log zum täglichen Leben) in der Regel 
zu jeder Situation verschiedene Aktionen, 
welche man ausführen kann. Es existie¬ 
ren verschiedene Strategien, um die ausge¬ 
wählten Situationen zu bewerten und so 
die zum Ziel führende Aktionsfolge zu ler¬ 
nen. Diese sollen im Folgenden erst einmal 
grundsätzlich erläutert werden. 

Wir wollen nun einige Extremfälle als De¬ 
signbeispiele zum Reward anbringen: 

Als Pure Delayed Reward bezeichnen 
wir eine Rewardvergabe ähnlich wie beim 


Schachspiel: Wir erhalten unsere Beloh¬ 
nung zum Schluss, und während des Spiels 
keine. Diese Methode ist immer dann von 
Vorteil, wenn man am Ende genau sagen 
kann, ob man Erfolg gehabt hat, aber 
in den Zwischenschritten nicht genau ein¬ 
schätzen kann, wie gut die eigene Situati¬ 
on ist. Es gilt 

rt = 0 Vt < r (C IO) 

sowie r T = 1 bei Gewinn und r T = — 1 
bei Verlust. Bei dieser Rewardstrategie ge¬ 
ben nur die Blätter des Situationsbaumes 
einen Reward zurück. 

Pure Negative Reward. Hier gilt 

rt = —1 Vt < t. (C.ll) 

Dieses System findet den schnellsten Weg 
zum Ziel, weil dieser automatisch auch der 
günstigste in Bezug auf den Reward ist. 
Man wird bestraft für alles, was man tut - 
selbst wenn man nichts tut, wird man be¬ 
straft. Diese Strategie hat zur Folge, dass 
es die preiswerteste Methode für den Agen¬ 
ten ist, schnell fertig zu werden. 

Als weitere Strategie betrachten wir die 
Avoidance Strategy : Schädlichen Situa¬ 
tionen wird aus dem Weg gegangen. Es 
gilt 

ne {0,-1}, (c.i 2 ) 

Fast alle Situationen erhalten hier gar kei¬ 
nen Reward, nur einige wenige erhalten 
einen negativen. Diese negativen Situa¬ 
tionen wird der Agent weiträumig umge¬ 
hen. 
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Achtung: Rewardstrategien können leicht 
unerwartete Folgen haben. Ein Roboter, 
dem man sagt „mach was du willst, aber 
wenn du ein Hindernis berührst, kriegst du 
eine Strafe“, wird einfach stehenbleiben. 
Wird Stehenbleiben folglich auch bestraft, 
wird er kleine Kreise fahren. Bei näherem 
Überlegen kommt man auf den Gedanken, 
dass diese Verhaltensweisen den Return 
des Roboters optimal erfüllen, aber leider 
nicht von uns intendiert waren. 

Man kann weiterhin zeigen, dass insbeson¬ 
dere kleine Aufgaben mit negativen Re- 
wards besser gelöst werden können wäh¬ 
rend man bei großen, komplizierten Auf¬ 
gaben mit positiven, differenzierteren Re- 
wards weiter kommt. 

In Bezug auf unsere Gridworld wollen wir 
den Pure Negative Reward als Strategie 
wählen: Der Roboter soll möglichst schnell 
zum Ausgang finden. 
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Abbildung C.3: Darstellung des jeweils optima¬ 
len Returns pro Feld in unserer Gridworld unter 
der Pure Negative Reward-Vergabe, oben mit of¬ 
fener Tür und unten mit geschlossener. 


Zustände 

bewerten 


C.2.2 Die State-Value-Funktion 


Im Gegensatz zu unserem Agenten haben 
wir eine gottgleiche Sicht auf unsere Grid¬ 
world, so dass wir schnell bestimmen kön¬ 
nen, welche Roboterstartposition welchen 
optimalen Return erreichen kann. 


In Abbildung C.3 sind diese optimalen Re¬ 
turns pro Feld aufgetragen. 


In der Gridworld: Die State-Value- 
Funktion für unsere Gridworld stellt 
genau eine solche Funktion pro Situation 
(= Ort) dar, mit dem Unterschied, dass 
sie nicht bekannt ist, sondern gelernt 
werden muss. 


Wir sehen also, dass es für den Robo¬ 
ter praktisch wäre, die aktuellen wie zu¬ 
künftigen Situationen einer Bewertung un¬ 
terziehen zu können. Betrachten wir al¬ 
so ein weiteres Systemelement des Re¬ 
inforcement Learning, die State- Value- 
Funktion V(s), welche mit Bezug auf ei¬ 
ne Policy n auch oft als Vn(s) bezeichnet 
wird: Denn ob eine Situation schlecht ist, 
hängt ja auch davon ab, was der Agent 
für ein Allgemeinverhalten ü an den Tag 
legt. 

Eine Situation, die unter einer risiko¬ 
suchenden, Grenzen austestenden Policy 
schlecht ist, wäre beispielsweise, wenn ei¬ 
nem Agent auf einem Fahrrad das Vorder- 
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C.2 Lernvorgang 


Vn(s) 


V3(») 


rad in der Kurve anfängt wegzurutschen 
und er in dieser Situation aufgrund seiner 
Draufgänger-Policy nicht bremst. Mit ei¬ 
ner risikobewussten Policy sähe dieselbe 
Situation schon viel besser aus, würde al¬ 
so von einer guten State-Value-Funktion 
höher bewertet werden. 

Vfr(s) gibt einfach den Wert zurück, den 
die aktuelle Situation s unter der Policy II 
für den Agenten gerade hat. Abstrakt nach 
den obigen Definitionen gesagt, entspricht 
der Wert der State-Value-Funktion dem 
Return Rt (dem erwarteten Wert) einer Si¬ 
tuation st- En bezeichnet hierbei die Men¬ 
ge der erwarteten Returns unter II und der 
aktuellen Situation st- 

^n(s) = E n {R t \s = st} 

Definition C.9 (State-Value-Funktion). 
Die State-Value-Funktion Vn(s) hat zur 
Aufgabe, den Wert von Situationen unter 
einer Policy zu ermitteln, also dem Agen¬ 
ten die Frage zu beantworten, ob eine Si¬ 
tuation s gut oder schlecht ist oder wie gut 
bzw. schlecht sie ist. Hierfür gibt sie den 
Erwartungswert des Returns unter der Si¬ 
tuation aus: 

Vh(s) = En{Rt\s = st} (03) 

Die optimale State-Value-Funktion nen¬ 
nen wir Vj}(s). 

Nun hat unser Roboter im Gegensatz zu 
uns leider keine gottgleiche Sicht auf sei¬ 
ne Umwelt. Er besitzt keine Tabelle mit 
optimalen Returns, wie wir sie eben auf¬ 
gezeichnet haben, an der er sich orientie¬ 
ren könnte. Das Ziel von Reinforcement 


Learning ist es, dass der Roboter sich sei¬ 
ne State-Value-Funktion anhand der Re¬ 
turns aus vielen Versuchen nach und nach 
selbst aufbaut und der optimalen State- 
Value-Funktion V* annähert (wenn es eine 
gibt). 

In diesem Zusammenhang seien noch zwei 
Begriffe eingeführt, welche eng mit dem 
Kreislauf zwischen State-Value-Funktion 
und Policy verbunden sind: 

C.2.2.1 Policy evaluation 

Policy evaluation nennt man die Vorge¬ 
hensweise, eine Policy einige Male durch¬ 
zuprobieren, auf diese Weise viele Rewards 
zu erhalten und durch diese mit der Zeit 
eine State-Value-Funktion aufzukumulie¬ 
ren. 

C.2.2.2 Policy improvement 

Policy improvement bedeutet, eine Po¬ 
licy selbst zu verbessern, also aus ihr eine 
neue, bessere Policy zu erzeugen. Um die 
Policy zu verbessern, müssen wir das Ziel 
verfolgen, dass der Return zum Schluss 
einen größeren Wert hat als vorher - man 
also einen kürzeren Weg zum Restaurant 
gefunden hat und ihn auch erfolgreich ge¬ 
gangen ist. 

Das Prinzip des Reinforcement Learnings 
ist nun, ein Wechselspiel zu realisieren. 
Man versucht zu bewerten, wie gut ei¬ 
ne Policy in den einzelnen Situationen 
ist. Wir probieren eine Policy und erhal¬ 
ten eine veränderte State-Value-Funktion. 
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Abbildung C.4: Der Kreislauf des 

Reinforcement-Learnings, welcher idealerweise 
zu optimalem II* bzw. V* führt. 


Aus der Veränderung der State-Value- 
Funktion gewinnen wir Informationen 
über das System, aus der wir wieder un¬ 
sere Policy verbessern. Diese beiden Wer¬ 
te ziehen sich nun gegenseitig hoch, was 
sich auch mathematisch beweisen lässt - 
so dass man zum Schluß eine optimale 
Policy II* und eine optimale State-Value- 
Funktion V* erhält (Abb. C.4). Dieser 
Kreislauf hört sich einfach an, ist aber sehr 
langwierig. 


Betrachten wir nun zuerst eine einfache, 
zufällige Policy, wie unser Roboter sei¬ 
ne State-Value-Funktion ohne Vorwissen 
langsam ausfüllen und verbessern könn¬ 
te. 


C.2.3 Montecarlo-Methodik 

Die einfachste Taktik, eine State-Value- 
Funktion aufzukumulieren, ist das reine 
Ausprobieren. Wir wählen also eine sich 
rein zufällig verhaltende Policy, welche die 
aufkumulierte State-Value-Funktion für ih¬ 
re Zufallsentscheidungen nicht berücksich¬ 
tigt. Es lässt sich beweisen, dass wir in un¬ 


serer Gridworld irgendwann einmal durch 
Zufall den Ausgang finden werden. 

Angelehnt an die auf Zufall basierenden 
Glücksspiele nennen wir diese Vorgehens¬ 
weise Montecarlo-Methodik. 

Gehen wir weiterhin von einem Pure Nega¬ 
tive Reward aus, so ist klar, dass wir für un¬ 
ser Startfeld in der State-Value-Funktion 
einen Bestwert von —6 erhalten können. Je 
nachdem, welchen zufälligen Weg die zufäl¬ 
lige Policy aber einschlägt, können ande¬ 
re (kleinere) Werte als —6 für das Start¬ 
feld auftreten. Intuitiv möchten wir uns 
für einen Zustand (also ein Feld) jeweils 
nur den besseren Wert merken. Hier ist je¬ 
doch Vorsicht geboten: So würde das Lern¬ 
verfahren nur bei deterministischen Sys¬ 
temen funktionieren. Unsere Tür, die pro 
Durchlauf entweder offen oder geschlossen 
sein kann, würde Oszillationen bei allen 
Feldern hervorrufen, deren kürzester Weg 
zum Ziel durch sie beeinflusst wird. 

Wir verwenden bei der Montecarlo- 
Methodik also lieber die Lernregel 2 

V(s t ) neu = V(st) alt + a(R t - U(st) alt ), 

in der offensichtlich sowohl der alte Zu¬ 
standswert als auch der erhaltene Return 
Einfluss auf die Aktualisierung der State- 
Value-Funktion haben (a ist die Lernra¬ 
te). Der Agent erhält also eine Art Erinne¬ 
rungsvermögen, neue Erkenntnisse ändern 
immer nur ein wenig am Situationswert. 
Ein beispielhafter Lernschritt findet sich 
in Abb. IG .5 auf der rechten Seitei 

2 Sie wird u.a. unter Verwendung der Bellman- 
Gleichung hergeleitet, die Herleitung ist aber nicht 
Bestandteil des Kapitels. 
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C.2 Lernvorgang 


In dem Beispielbild wurde nur die Zu¬ 
standswertberechnung für einen einzigen 
Zustand (unseren Startzustand) aufgetra¬ 
gen. Dass es möglich ist und auch oft ge¬ 
macht wird, die Werte für die zwischen¬ 
durch besuchten Zustände (im Fall der 
Gridworld unsere Wege zum Ziel) gleich 
mit zu trainieren, sollte offensichtlich sein. 
Das Ergebnis einer solchen Rechnung in 
Bezug auf unser Beispiel findet sich in 
Abb. C.6 auf der folgenden Scitc| 


Die Montecarlo-Methodik mag subopti- 
mal erscheinen und ist auch im Regelfall 
wesentlich langsamer als die nachfolgend 
vorgestellten Methoden des Reinforcement 
Learnings - allerdings ist sie die einzige, 
bei der man mathematisch beweisen kann, 
dass sie funktioniert und eignet sich daher 
sehr für theoretische Betrachtungen. 











-1 

-6 

-5 

-4 

-3 

-2 























Definition C.10 (Montecarlo-Lernen). 
Es werden zufällig Aktionen ohne Rück¬ 
sicht auf die State-Value-Funktion ausge¬ 
führt und langfristig eine aussagekräftige 
State-Value-Funktion mit untenstehender 
Lernregel aufkumuliert. 

V(s t ) neu = V(s t ) alt + a(Rt - V(s t ) a it), 

C.2.4 Temporal Difference Learning 

Wir lernen im täglichen Leben weitestge¬ 
hend durch Erfahrung und Ausprobieren. 
Das Allermeiste, was wir lernen, geschieht 
durch Erfahrung; blessurenfrei (oder eben 
auch nicht) gehen und Fahrrad fahren, 
auch geistige Fertigkeiten wie mathemati¬ 
sches Problemlosen profitieren sehr von Er¬ 
fahrung und schlichtem Ausprobieren ( Tri- 












-10 


























Abbildung C.5: Anwendung der Montecarlo- 
Lernregel mit einer Lernrate von a = 0.5. Oben 
sind beispielhaft zwei Wege aufgetragen, die der 
Agent durch Zufall wählt (einer mit offener, ei¬ 
ner mit geschlossener Tür). Unten das Ergebnis 
der Lernregel für den Wert des Startzustands 
unter Berücksichtigung beider Wege. Dadurch, 
dass unter zufälliger Policy mit der Zeit sehr viele 
verschiedene Wege gegangen werden, erhält man 
eine sehr aussagekräftige State-Value-Funktion. 
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Abbildung C.6: Erweiterung des Lernbeispiels 
aus Abb. |C.5| in dem auch die Returns für 
Zwischenzustände zur Aufkumulierung der State- 
Value-Funktion herangezogen werden. Sehr 
schön zu beobachten ist der niedrige Wert auf 
dem Türfeld: Wenn dieser Zustand eingenom¬ 
men werden kann, ist er ja sehr positiv, wenn 
die Tür zu ist, kann er gar nicht eingenommen 
werden. 


al and Error). Wir initialisieren also unse¬ 
re Policy mit irgendwelchen Werten - pro¬ 
bieren aus, lernen und verbessern die Po¬ 
licy so aus Erfahrung (Abb. C. 7 ). Im Un¬ 
terschied zur Montecarlo-Methodik wollen 
wir dies nun auf eine gerichtetere Art und 
Weise tun. 


Genau wie wir durch Erfahrung lernen, in 
verschiedenen Situationen auf bestimmte 
Weise zu reagieren, macht es die Tempo¬ 
ral Difference Lernmethode (kurz: TD- 
Learning ), indem Vq(s) trainiert wird 
(der Agent lernt also einschätzen, wel¬ 
che Situationen viel wert sind und welche 
nicht). Wir bezeichnen wieder die aktuelle 
Situation mit st, die nachfolgende Situati¬ 
on mit S£+i und so weiter. Die Lernformel 


Evaluation 



n q 



Policy verbessern 


Abbildung C.7: Wir probieren Aktionen in der 
Umwelt aus und lernen so und verbessern die 
Policy. 


für die State-Value-Funktion Tn(si) ergibt 
sich also zu 

V(s t ) neu =V(s t ) 

+ a(r t+ 1 + 7V (s t + 1) - V ( s t )) 

"-V- 

Veränderung des alten Wertes 

Wir sehen, dass die zur Lernrate a propor¬ 
tionale Veränderung des Wertes der aktu¬ 
ellen Situation st beeinflusst wird von 

> dem empfangenen Reward 77+1, 

> dem mit einem Faktor 7 gewichteten 
bisherigen Return der Nachfolgesitua¬ 
tion V(s t+ 1), 

> dem alten Wert der Situation V(st). 

Definition C.ll (Temporal Diffe¬ 
rence Learning). Im Unterschied 
zur Montecarlo-Methodik schaut TD- 
Learning etwas in die Zukunft, indem die 
Nachfolgesituation st+i betrachtet wird. 
Die Lernregel ist definiert zu 

V{s t ) neu =V{s t ) (C. 14) 

+ a(r t+ 1 + 7U(st+i) - V ( s t )) . 

"-V-' 

Veränderung des alten Wertes 
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C.2 Lernvorgang 


Aktionen 

bewerten 

Qn(s,a) 


Qyi(s, a) 



Abbildung C.8: Beispielhafte Werte einer 
Action-Value-Funktion für die Position x. Nach 
rechts gehend bleibt man auf dem schnellsten 
Weg zum Ziel, nach oben ist immer noch ein 
recht schneller Weg, nach unten zu gehen ist 
kein guter Weg (alles im Falle einer offenen 
Tür). 


C.2.5 Die Action-Value-Funktion 


Analog zur State-Value-Funktion Vn(s) 
ist ein weiterer Systembestandteil des 
Reinforcement Learning die Action- 
Value-Funktion Qn(S) a )- welche eine be¬ 
stimmte Aktion a unter einer bestimmten 
Situation s und der Policy II bewertet. 


In der Gridworld: In der Gridworld sagt 
uns die Action-Value-Funktion, wie gut es 
ist, von einem bestimmten Feld in eine be¬ 
stimmte Richtung zu gehen (Abb. C.8). 


Definition C.12 (Action-Value-Funkti¬ 
on). Analog zur State-Value-Funktion 
bewertet die Action-Value-Funktion 
Qn(st,a) bestimmte Aktionen ausgehend 
von bestimmten Situationen unter 
einer Policy. Die optimale Action- 
Value-Funktion benennen wir mit 
Qn( s t, o,). 


Wie in Abb. |C .9 ersichtlich, führen wir Ak¬ 
tionen so lange durch, bis eine Zielsituati¬ 
on (hier s T genannt) erreicht ist (wenn es 
eine gibt, ansonsten werden einfach immer 
weiter Aktionen durchgeführt). 


C.2.6 Q-Learning 

Recht analog ergibt sich als Lernformel für 
die Action-Value-Funktion < 5 n(s, a), deren 
Benutzung wir analog zum TD-Learning 
als Q-Learning bezeichnen: 


QGt,(x)neu — Q(St,a) 

+ a(r t +i +7maxQ(st+i,ffl) —Q(s t ,a)) . 

a 

Greedy-Strategie 

"-V-' 

Veränderung des alten Wertes 

Wir schlüsseln wieder die (zur Lernrate a 
proportionale) Veränderung des aktuellen 
Aktionswertes unter der aktuellen Situati¬ 
on auf. Sie wird beeinflusst von 

> dem empfangenen Reward rt+ 1, 

> dem mit 7 gewichteten maximalen Ac¬ 
tion Value über die Nachfolgeaktio¬ 
nen (hier wird eine Greedy-Strategie 
angewendet, da man ruhig davon 
ausgehen kann, dass man die bes¬ 
te bekannte Aktion wählt, beim TD- 
Learning achten wir hingegen nicht 
darauf, immer in die beste bekannte 
nächste Situation zu kommen), 

> dem alten Wert der Aktion unter 
unserer als st bekannten Situation 
Q(st,a) (nicht vergessen, dass auch 
dieser durch a gewichtet ist). 
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Aktionsrichtung 



Rewardrichtung 


Abbildung C.9: Aktionen werden durchgeführt, bis eine gewünschte Zielsituation erreicht ist. Zu 
beachten ist die Durchnummerierung: Rewards werden von 1 an nummeriert, Aktionen und Situa¬ 
tionen von 0 an (Dies hat sich einfach eingebürgert). 


In aller Regel lernt die Action-Value- 
Funktion wesentlich schneller als die State- 
Value-Funktion, wobei aber nicht zu ver¬ 
nachlässigen ist, dass Reinforcement Lear¬ 
ning allgemein recht langsam ist: Das Sys¬ 
tem muss ja selbst herausfinden, was gut 
ist. Schön ist aber am Q-Learning: II 
kann beliebig initialisiert werden, durch Q- 
Learning erhalten wir immer Q*. 

Definition C.13 (Q-Learning). 
Q-Learning trainiert die Action-Value- 
Funktion mit der Lernregel 

Q(s t ,a)neu =Q(s t ,a) (C. 15) 

+ a(r t +1 + 7 max Q(st+i, a) — Q(s t ,i 

a 

und findet so auf jeden Fall Q*. 

C.3 Beispielanwendungen 

C.3.1 TD-Gammon 

TD-Gammon ist ein sehr erfolgreiches, 
auf TD-Learning basierendes Backgam¬ 


monspiel von Gerald Tesauro. Situa¬ 
tion ist hier die aktuelle Konfiguration 
des Spielbrettes. Jedem, der schon einmal 
Backgammon gespielt hat, ist klar, dass 
der Situationsraum gigantisch groß ist (ca. 
IO 20 Situationen) - was zur Folge hat, dass 
man keine State-Value-Funktione explizit 
ausrechnen kann (insbesondere zur Zeit 
des TD-Gammons Ende der 80 er Jahre). 
Die gewählte Rewardstrategie war Pure 
Delayed Reward , das System erhält den 
Reward also erst zum Schluss des Spiels, 
der dann gleichzeitig der Return ist. Man 
hat das System dann selbstständig üben 
lassen (zunächst gegen ein Backgammon- 
jjQrogramm, danach gegen eine Instanz sei¬ 
ner selbst). Resultat war, das es in einer 
Computer-Backgammon-Liga das höchste 
Ranking erreicht hat und eindrucksvoll wi¬ 
derlegt war, dass ein Computerprogramm 
eine Tätigkeit nicht besser beherrschen 
kann als sein Programmierer. 
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C.3 Beispielanwendungen 


C.3.2 Das Auto in der Grube 

Betrachten wir ein Auto, das auf eindi¬ 
mensionaler Fahrbahn am Fuß einer tiefen 
Mulde steht, und die Steigung zu keiner 
der beiden Seiten auf Anhieb mit seiner 
Motorkraft überwinden kann, um aus der 
Mulde hinauszufahren. Ausführbare Aktio¬ 
nen sind hier trivialerweise die Möglich¬ 
keiten, vorwärts und rückwärts zu fahren. 
Die intuitive Lösung, an welche wir als 
Menschen sofort denken, ist zurückzuset¬ 
zen, an der gegenüberliegenden Steigung 
Schwung zu holen und mehrmals auf diese 
Weise hin- und her zu oszillieren, um mit 
Schwung aus der Mulde herauszufahren. 

Aktionen eines Reinforcement Learning 
Systems wären „Vollgas nach vorn“, „Voll¬ 
gas zurück“ und „nichts tun“. 

Hier wäre „Alles kostet“ eine gute Wahl 
für die Rewardvergabe, so dass das Sys¬ 
tem schnell lernt, aus der Grube herauszu¬ 
kommen und merkt, dass unser Problem 
mit purer vorwärts gerichteter Motorkraft 
nicht zu lösen ist. Das System wird sich 
also langsam hochschaukeln. 

Hier können wir die Policy nicht mehr 
als Tabelle ablegen, da der Zustandsraum 
nicht gut diskretisierbar ist. Hier muss 
wirklich eine Funktion als Policy geschaf¬ 
fen werden. 


C.3.3 Der Pole Balancer 

Der Pole Balancer wurde entwickelt von 
Barto, Sutton und Anderson. 


Gegeben sei eine Situation, welche ein 
Fahrzeug beinhaltet, das sich entweder mit 
Vollgas nach rechts oder mit Vollgas nach 
links bewegen kann (Bang-Bang-Control). 
Es kann nur diese beiden Aktionen aus¬ 
führen, Stehenbleiben ist nicht möglich. 
Auf diesem Fahrzeug steht senkrecht eine 
Stange, welche zu beiden Seiten umkippen 
kann. Die Stange ist so konstruiert, dass 
sie immer in Richtung einer Seite kippt, 
also niemals stillsteht (sagen wir einfach, 
sie sei am unteren Ende abgerundet). 

Den Winkel, in dem die Stange im Mo¬ 
ment relativ zur Senkrechten steht, be¬ 
zeichnen wir mit a. Das Fahrzeug besitzt 
weiterhin immer eine definierte Position x 
auf unserer eindimensionalen Welt und im¬ 
mer eine Geschwindigkeit x. Unsere eindi¬ 
mensionale Welt ist begrenzt, es gibt also 
Maximal- und Minimalwerte, welche x an¬ 
nehmen kann. 

Ziel unseres Systems ist zu lernen, den Wa¬ 
gen dahingehend zu steuern, dass er das 
Kippen der Stange ausgleicht, die Stange 
also nicht umfällt. Dies erreichen wir am 
besten mit einer Avoidance Strategy: So¬ 
lange die Stange nicht umgefallen ist, gibt 
es einen Reward von 0 , fällt sie um, gibt 
es einen Reward von - 1 . 

Interessanterweise ist das System schnell 
in der Lage, den Stab stehend zu halten, 
indem es schnell genug mit kleinen Bewe¬ 
gungen daran wackelt. Es hält sich hierbei 
zumeist in der Mitte des Raums auf, da es 
am weitesten weg von den Wänden ist, die 
es als negativ empfindet (stößt man gegen 
die Wand, fällt der Stab um). 
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C.3.3.1 Swinging up an inverted 
Pendulum 

Schwieriger für das System ist die Startsi¬ 
tuation, dass der Stab im Vorhinein her¬ 
unterhängt, erst einmal durch Schwingun¬ 
gen über das Gefährt bewegt werden, und 
anschließend stabilisiert werden muss. Die¬ 
se Aufgabe wird in der Literatur mit 
Swing up an inverted Pendulum be¬ 
zeichnet. 

C.4 Reinforcement Learning 
im Zusammenhang mit 
Neuronalen Netzen 

Zu guter Letzt möchte der Leser viel¬ 
leicht fragen, was das Kapitel über Re- 
inforcement Learning in einem Skriptum 
zum Thema „Neuronale Netze“ zu suchen 
hat. 

Die Antwort ist einfach motiviert. Wir ha¬ 
ben bereits überwachte und unüberwachte 
Lernverfahren kennengelernt. Wir haben 
zwar nicht überall einen allwissenden Te- 
acher, der uns überwachtes Lernen ermög¬ 
licht. Es ist aber auch nicht unbedingt so, 
dass wir gar kein Feedback erhalten. Oft 
gibt es ein Mittelding, eine Art Kritik oder 
Schulnote, bei Problemen dieser Art kann 
Reinforcement Learning zum Einsatz kom¬ 
men. 

Nicht alle Probleme sind hierbei so leicht 
handhabbar wie unsere Gridworld: Bei 
unserem Backganrnron-Beispiel haben wir 
alleine ca. IO 20 Situationen und einen 


großen Verzweigungsgrad im Situations¬ 
baum, von anderen Spielen ganz zu schwei¬ 
gen. Hier werden die in der Gridworld be¬ 
nutzten Tabellen als State- und Action- 
Value-Funktionen schlicht nicht mehr rea¬ 
lisierbar, wir müssen also Approximatoren 
für diese Funktionen finden. 

Und welche lernfähigen Approximatoren 
für diese Bestandteile des Reinforcement 
Learnings fallen uns nun auf Anhieb ein? 
Richtig: Neuronale Netze. 


Übungsaufgaben 

Aufgabe 20. Ein Kontrollsystem für 
einen Roboter soll mittels Reinforcement 
Learning dazu gebracht werden, eine Stra¬ 
tegie zu finden um ein Labyrinth möglichst 
schnell zu verlassen. 

> Wie könnte eine geeignete State- 
Value-Funktion aussehen? 

> Wie würden Sie einen geeigneten Re- 
ward erzeugen? 

Gehen Sie davon aus, dass der Roboter 
Hindernisvermeidung beherrscht und zu je¬ 
dem Zeitpunkt seine Position ( x , y ) und 
Orientierung cf) kennt. 

Aufgabe 21. Beschreiben Sie die Funkti¬ 
on der beiden Elemente ASE und ACE so 
wie sie von Barto, Sutton und Ander¬ 
son für die Kontrolle des Pole Balancer 
vorgeschlagen wurden. 

Literaturangabe: |BSA 83 . 
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C.4 Reinforcement Learning im Zusammenhang mit Neuronalen Netzen 


Aufgabe 22. Nennen Sie mehrere „klas¬ 
sische“ Informatik-Aufgaben, die mit Re¬ 
inforcement Learning besonders gut bear¬ 
beitet werden könnten und begründen Sie 
ihre Meinung. 
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